論文の概要: Leveraging Text-Driven Semantic Variation for Robust OOD Segmentation
- arxiv url: http://arxiv.org/abs/2511.07238v1
- Date: Mon, 10 Nov 2025 15:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.346537
- Title: Leveraging Text-Driven Semantic Variation for Robust OOD Segmentation
- Title(参考訳): ロバストOODセグメンテーションのためのテキスト駆動セマンティック変動の活用
- Authors: Seungheon Song, Jaekoo Lee,
- Abstract要約: 本稿では,テキスト駆動型OODモデルを訓練し,視覚言語空間における意味論的に多様なオブジェクト集合を学習する手法を提案する。
視覚的およびテキスト的情報を整合させることにより、本手法は、見えない物体に効果的に一般化し、多様な運転環境において堅牢なOODセグメンテーションを提供する。
- 参考スコア(独自算出の注目度): 2.4622211579286133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving and robotics, ensuring road safety and reliable decision-making critically depends on out-of-distribution (OOD) segmentation. While numerous methods have been proposed to detect anomalous objects on the road, leveraging the vision-language space-which provides rich linguistic knowledge-remains an underexplored field. We hypothesize that incorporating these linguistic cues can be especially beneficial in the complex contexts found in real-world autonomous driving scenarios. To this end, we present a novel approach that trains a Text-Driven OOD Segmentation model to learn a semantically diverse set of objects in the vision-language space. Concretely, our approach combines a vision-language model's encoder with a transformer decoder, employs Distance-Based OOD prompts located at varying semantic distances from in-distribution (ID) classes, and utilizes OOD Semantic Augmentation for OOD representations. By aligning visual and textual information, our approach effectively generalizes to unseen objects and provides robust OOD segmentation in diverse driving environments. We conduct extensive experiments on publicly available OOD segmentation datasets such as Fishyscapes, Segment-Me-If-You-Can, and Road Anomaly datasets, demonstrating that our approach achieves state-of-the-art performance across both pixel-level and object-level evaluations. This result underscores the potential of vision-language-based OOD segmentation to bolster the safety and reliability of future autonomous driving systems.
- Abstract(参考訳): 自律運転とロボット工学では、道路安全と信頼性の高い意思決定は、アウト・オブ・ディストリビューション(OOD)セグメンテーションに依存している。
道路上の異常な物体を検出するための多くの手法が提案されているが、豊かな言語知識を提供する視覚言語空間の利用は、未探索の分野として残されている。
現実の自律運転シナリオで見られる複雑な状況において、これらの言語的手がかりを組み込むことは特に有益である、という仮説を立てる。
そこで本研究では,テキスト駆動型OODセグメンテーションモデルを用いて,視覚言語空間における意味論的に多様なオブジェクト集合を学習する手法を提案する。
具体的には,映像言語モデルのエンコーダとトランスフォーマーデコーダを併用し,イン・ディストリビューション(ID)クラスから様々なセマンティック距離に位置するDistance-based OODプロンプトを用い,OOD表現にOODセマンティック拡張を利用する。
視覚的およびテキスト的情報を整合させることにより、本手法は、見えない物体に効果的に一般化し、多様な運転環境において堅牢なOODセグメンテーションを提供する。
筆者らは,Fishyscapes,Segment-Me-If-You-Can,Road AnomalyなどのOODセグメンテーションデータセットについて広範な実験を行い,我々のアプローチが画素レベルおよびオブジェクトレベルの評価において最先端の性能を達成することを実証した。
この結果は、将来の自動運転システムの安全性と信頼性を高めるために、視覚言語に基づくOODセグメンテーションの可能性を強調している。
関連論文リスト
- CoT-Segmenter: Enhancing OOD Detection in Dense Road Scenes via Chain-of-Thought Reasoning [10.100430371132463]
本稿では,道路異常シーンにおけるOOD検出を目的とした新しいChain-of-Thought(CoT)ベースのフレームワークを提案する。
我々のフレームワークは、標準ベンチマークと新たに定義されたRoadAnomalyデータセットの課題サブセットの両方において、常に最先端のメソッドを上回ります。
論文 参考訳(メタデータ) (2025-07-05T10:23:40Z) - RUNA: Object-level Out-of-Distribution Detection via Regional Uncertainty Alignment of Multimodal Representations [33.971901643313856]
RUNAは、アウト・オブ・ディストリビューション(OOD)オブジェクトを検出するための新しいフレームワークである。
これは、OODオブジェクトとIDを効果的に区別するために、地域不確実性アライメント機構を使用する。
実験の結果,RUNAはオブジェクトレベルのOOD検出において最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-03-28T10:01:55Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Driver Activity Classification Using Generalizable Representations from Vision-Language Models [0.0]
本稿では,視覚言語モデルからの一般化可能な表現をドライバ活動分類に活用する新しいアプローチを提案する。
この結果から,視覚言語表現は運転監視システムにとって有望な道筋であることが示唆された。
論文 参考訳(メタデータ) (2024-04-23T10:42:24Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Out-of-Domain Intent Detection Considering Multi-Turn Dialogue Contexts [91.43701971416213]
我々は,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。
CaroはF1-OODスコアを29%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。
論文 参考訳(メタデータ) (2023-05-05T01:39:21Z) - Improving Out-of-Distribution Detection with Disentangled Foreground and Background Features [23.266183020469065]
本稿では,IDトレーニングサンプルから前景と背景の特徴を密接な予測手法によって切り離す新しいフレームワークを提案する。
これは、様々な既存のOOD検出メソッドとシームレスに組み合わせられる汎用フレームワークである。
論文 参考訳(メタデータ) (2023-03-15T16:12:14Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。