論文の概要: Robustness Is a Function, Not a Number: A Factorized Comprehensive Study of OOD Robustness in Vision-Based Driving
- arxiv url: http://arxiv.org/abs/2602.09018v1
- Date: Mon, 09 Feb 2026 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.443872
- Title: Robustness Is a Function, Not a Number: A Factorized Comprehensive Study of OOD Robustness in Vision-Based Driving
- Title(参考訳): ロバストネスは機能であって数ではない:視覚ベース運転におけるOODロバストネスの因子的包括的研究
- Authors: Amir Mallak, Alaa Maalouf,
- Abstract要約: 自律運転におけるアウトオブディストリビューション(OOD)の堅牢性は、しばしば単一の数に減少し、ポリシーを破るものを隠蔽する。
シーン(農村・都市)、季節、天気、時間(昼・夜)、エージェントミックスの5つの軸に沿って環境を分解する。
VISTAのクローズドループ制御を用いて、FC、CNN、VTポリシーをベンチマークし、凍結基礎モデル(FM)機能でコンパクトなVTヘッドを訓練する。
- 参考スコア(独自算出の注目度): 9.304998332555952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out of distribution (OOD) robustness in autonomous driving is often reduced to a single number, hiding what breaks a policy. We decompose environments along five axes: scene (rural/urban), season, weather, time (day/night), and agent mix; and measure performance under controlled $k$-factor perturbations ($k \in \{0,1,2,3\}$). Using closed loop control in VISTA, we benchmark FC, CNN, and ViT policies, train compact ViT heads on frozen foundation-model (FM) features, and vary ID support in scale, diversity, and temporal context. (1) ViT policies are markedly more OOD-robust than comparably sized CNN/FC, and FM features yield state-of-the-art success at a latency cost. (2) Naive temporal inputs (multi-frame) do not beat the best single-frame baseline. (3) The largest single factor drops are rural $\rightarrow$ urban and day $\rightarrow$ night ($\sim 31\%$ each); actor swaps $\sim 10\%$, moderate rain $\sim 7\%$; season shifts can be drastic, and combining a time flip with other changes further degrades performance. (4) FM-feature policies stay above $85\%$ under three simultaneous changes; non-FM single-frame policies take a large first-shift hit, and all no-FM models fall below $50\%$ by three changes. (5) Interactions are non-additive: some pairings partially offset, whereas season-time combinations are especially harmful. (6) Training on winter/snow is most robust to single-factor shifts, while a rural+summer baseline gives the best overall OOD performance. (7) Scaling traces/views improves robustness ($+11.8$ points from $5$ to $14$ traces), yet targeted exposure to hard conditions can substitute for scale. (8) Using multiple ID environments broadens coverage and strengthens weak cases (urban OOD $60.6\% \rightarrow 70.1\%$) with a small ID drop; single-ID preserves peak performance but in a narrow domain. These results yield actionable design rules for OOD-robust driving policies.
- Abstract(参考訳): 自律運転におけるアウトオブディストリビューション(OOD)の堅牢性は、しばしば単一の数に減少し、ポリシーを破るものを隠蔽する。
我々は、シーン(農村・都市)、季節、天気、時間(昼・夜)、エージェントミックスの5つの軸に沿って環境を分解し、制御された$k$-factor摂動(k \in \{0,1,2,3\}$)でパフォーマンスを測定する。
VISTAにおけるクローズドループ制御を用いて、FC、CNN、VTポリシーをベンチマークし、凍結基礎モデル(FM)機能でコンパクトなVTヘッドを訓練し、スケール、多様性、時間的文脈におけるIDサポートを変化させる。
1) ViTポリシは比較可能な大きさのCNN/FCよりも明らかにOODロバストであり,FM機能は遅延コストで最先端の成功をもたらす。
2) 時間入力(複数フレーム)が最高の単一フレームベースラインを超えない。
(3) 最大のシングルファクタードロップは田舎の$\rightarrow$ urbanとday $\rightarrow$ night(それぞれ$\sim 31\%$)、アクタースワップ$\sim 10\%$、適度な雨$\sim 7\%$、季節シフトは劇的なものであり、他の変更とタイムフリップを組み合わせることでパフォーマンスがさらに低下する。
FM以外の単一フレームポリシーは大きな第1シフトのヒットを受け、すべての非FMモデルは3つの変更によって50\%以下になる。
(5)相互作用は非添加性であり、一部のペアは部分的にオフセットするが、季節的組み合わせは特に有害である。
(6) 冬・雪のトレーニングは単要素シフトが最も頑丈であり, 田園部+夏期ベースラインはOODの総合成績が最高である。
(7) トレース/ビューのスケーリングはロバスト性を改善する(+11.8$ポイントを5ドルから14ドルまで)。
(8)複数のID環境を使用することで、カバー範囲を広げ、弱いケース(Urban OOD $60.6\% \rightarrow 70.1\%$)を小さなIDドロップで強化する。
これらの結果は、OOD-Robust駆動ポリシーの実用的な設計規則を導出する。
関連論文リスト
- Self-Improving World Modelling with Latent Actions [53.93276450137471]
世界の内部モデリングは推論と計画に不可欠である。
状態のみのシーケンスから学習する自己改善フレームワークSWIRLを提案する。
論文 参考訳(メタデータ) (2026-02-05T19:04:41Z) - See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文 参考訳(メタデータ) (2026-01-15T18:58:33Z) - e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings [91.3041144166326]
市販の視覚言語モデルをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピであるe5-omniを提案する。
e5-omniは、類似度尺度を整合させるためにモード対応温度校正と、混乱する負の点に焦点を合わせた制御可能な負のカリキュラムと、クロスモーダル幾何に適合するバッチホワイトニングを組み合わせる。
MMEB-V2とAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示した。
論文 参考訳(メタデータ) (2026-01-07T07:39:40Z) - Flip-Flop Consistency: Unsupervised Training for Robustness to Prompt Perturbations in LLMs [2.125148574616104]
大規模言語モデル(LLM)は、しばしば同じプロンプトの異なる言い回しに直面したときに矛盾する答えを生成する。
Flip-Flop Consistency(F2C$)を提案する。
提案手法は4つのNLPタスクにまたがる11のデータセットに対して,データセット毎に4~15のばらつきが生じる。
論文 参考訳(メタデータ) (2025-10-16T02:54:01Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution
Shifts of Individual Nuisances in Natural Images [59.51657161097337]
OOD-CV-v2は、ポーズ、形状、テクスチャ、コンテキスト、気象条件の10のオブジェクトカテゴリのアウト・オブ・ディストリビューションの例を含むベンチマークデータセットである。
この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
論文 参考訳(メタデータ) (2023-04-17T20:39:25Z) - Finetune like you pretrain: Improved finetuning of zero-shot vision
models [22.65471417984267]
対照的な事前学習を模倣する自然な簡単なアプローチが、代替の微調整アプローチよりも一貫して優れていることを示す。
提案手法は,7つの分散シフト,6つの転移学習,および3つの数ショット学習ベンチマークのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-12-01T16:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。