論文の概要: A Comparative Evaluation of Large Vision-Language Models for 2D Object Detection under SOTIF Conditions
- arxiv url: http://arxiv.org/abs/2601.22830v1
- Date: Fri, 30 Jan 2026 10:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.397423
- Title: A Comparative Evaluation of Large Vision-Language Models for 2D Object Detection under SOTIF Conditions
- Title(参考訳): SOTIF条件下での2次元物体検出のための大規模視覚言語モデルの比較評価
- Authors: Ji Zhou, Yilin Ding, Yongqi Zhao, Jiachen Xu, Arno Eichberger,
- Abstract要約: 本稿では、安全クリティカルな2次元物体検出のためのLVLM(Large Vision-Language Models)を体系的に評価する。
PeSOTIFデータセットは、ロングテール交通シナリオと環境劣化のベンチマークである。
LVLMは複雑な自然シナリオの25%以上をリコールしてYOLOベースラインを上回ります。
- 参考スコア(独自算出の注目度): 2.7694879331630182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable environmental perception remains one of the main obstacles for safe operation of automated vehicles. Safety of the Intended Functionality (SOTIF) concerns safety risks from perception insufficiencies, particularly under adverse conditions where conventional detectors often falter. While Large Vision-Language Models (LVLMs) demonstrate promising semantic reasoning, their quantitative effectiveness for safety-critical 2D object detection is underexplored. This paper presents a systematic evaluation of ten representative LVLMs using the PeSOTIF dataset, a benchmark specifically curated for long-tail traffic scenarios and environmental degradations. Performance is quantitatively compared against the classical perception approach, a YOLO-based detector. Experimental results reveal a critical trade-off: top-performing LVLMs (e.g., Gemini 3, Doubao) surpass the YOLO baseline in recall by over 25% in complex natural scenarios, exhibiting superior robustness to visual degradation. Conversely, the baseline retains an advantage in geometric precision for synthetic perturbations. These findings highlight the complementary strengths of semantic reasoning versus geometric regression, supporting the use of LVLMs as high-level safety validators in SOTIF-oriented automated driving systems.
- Abstract(参考訳): 信頼性の高い環境認識は、自動車両の安全運転における主要な障害の1つである。
意図的機能性(SOTIF)の安全性は、特に従来の検出器がしばしば干渉する悪条件下では、知覚不全による安全性のリスクを懸念する。
LVLM(Large Vision-Language Models)は有望なセマンティック推論を実証するが、安全クリティカルな2次元物体検出の定量的有効性は未発見である。
本稿では, 長期交通シナリオと環境劣化を考慮したベンチマークであるPeSOTIFデータセットを用いて, 10種類の代表的なLVLMの系統評価を行った。
性能は、YOLOベースの検出器である古典的知覚アプローチと定量的に比較される。
トップパフォーマンスのLVLM(例:Gemini 3, Doubao)は、複雑な自然シナリオにおいて25%以上リコールされ、視覚的劣化に対して優れた堅牢性を示す。
逆に、ベースラインは合成摂動の幾何学的精度の利点を保っている。
これらの知見は, セマンティック推論と幾何回帰の相補的な長所を強調し, SOTIF指向自動運転システムにおけるLVLMを高レベル安全性検証器として活用することを支援する。
関連論文リスト
- Semantic Misalignment in Vision-Language Models under Perceptual Degradation [2.9140696506330723]
視覚知覚の制御下において視覚言語モデル(VLM)における意味的ミスアライメントについて検討する。
ダウンストリームVLMの動作に深刻な障害がみられ, 幻覚的対象の言及, 安全クリティカルな実体の欠落, 不整合性判定などが観察された。
以上の結果から,画素レベルのロバスト性とマルチモーダルなセマンティックな信頼性との明確な不一致が明らかとなり,現在のVLMシステムにとって重要な限界が浮き彫りになった。
論文 参考訳(メタデータ) (2026-01-13T09:13:05Z) - Think-Reflect-Revise: A Policy-Guided Reflective Framework for Safety Alignment in Large Vision Language Models [58.17589701432514]
Think-Reflect-Revise (TRR)は、LVLM(Large Vision Language Models)の安全性向上を目的としたトレーニングフレームワークである。
まず、リフレクティブセーフティ推論(ReSafe)データセットを5000の例で構築し、シンク・リフレクティブ・リフレクティブ・プロセスに従っています。
次に、ReSafeデータセットを用いてターゲットモデルを微調整し、反射行動の初期化を行い、最後に強化学習を通じてポリシー誘導反射を強化する。
論文 参考訳(メタデータ) (2025-12-08T03:46:03Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving [7.355977594790584]
自律運転における3次元物体検出器の安全性指向性能について考察する。
本稿では,単純だが重要な局所化要件を特徴付ける空間的制約 (USC) について述べる。
既存のモデルに対する安全性指向の微調整を可能にするために,定量的な測定値を共通損失関数に組み込む。
論文 参考訳(メタデータ) (2022-09-21T14:03:08Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。