論文の概要: Cross-Paradigm Evaluation of Gaze-Based Semantic Object Identification for Intelligent Vehicles
- arxiv url: http://arxiv.org/abs/2602.01452v1
- Date: Sun, 01 Feb 2026 21:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.79331
- Title: Cross-Paradigm Evaluation of Gaze-Based Semantic Object Identification for Intelligent Vehicles
- Title(参考訳): インテリジェント車両の注視に基づくセマンティック物体識別のクロスパラダイム評価
- Authors: Penghao Deng, Jidong J. Yang, Jiachen Bian,
- Abstract要約: 本稿では,車両のフロントカメラが捉えた道路シーンからの意味的識別タスクとして,この課題に取り組む。
直接物体検出(YOLOv13)、セグメント化支援分類(SAM2対EfficientNetV2対YOLOv13)、クエリベースの視覚言語モデル(VLM)の3つのアプローチについて検討した。
その結果、直接物体検出(YOLOv13)とQwen2.5-VL-32bは、他の手法よりも大幅に優れており、マクロF1スコアは0.84以上であることがわかった。
- 参考スコア(独自算出の注目度): 2.867517731896504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding where drivers direct their visual attention during driving, as characterized by gaze behavior, is critical for developing next-generation advanced driver-assistance systems and improving road safety. This paper tackles this challenge as a semantic identification task from the road scenes captured by a vehicle's front-view camera. Specifically, the collocation of gaze points with object semantics is investigated using three distinct vision-based approaches: direct object detection (YOLOv13), segmentation-assisted classification (SAM2 paired with EfficientNetV2 versus YOLOv13), and query-based Vision-Language Models, VLMs (Qwen2.5-VL-7b versus Qwen2.5-VL-32b). The results demonstrate that the direct object detection (YOLOv13) and Qwen2.5-VL-32b significantly outperform other approaches, achieving Macro F1-Scores over 0.84. The large VLM (Qwen2.5-VL-32b), in particular, exhibited superior robustness and performance for identifying small, safety-critical objects such as traffic lights, especially in adverse nighttime conditions. Conversely, the segmentation-assisted paradigm suffers from a "part-versus-whole" semantic gap that led to large failure in recall. The results reveal a fundamental trade-off between the real-time efficiency of traditional detectors and the richer contextual understanding and robustness offered by large VLMs. These findings provide critical insights and practical guidance for the design of future human-aware intelligent driver monitoring systems.
- Abstract(参考訳): 視線行動によって特徴付けられる運転中の視覚的注意の方向を理解することは、次世代の先進運転支援システムを開発し、道路安全を改善するために重要である。
本稿では,車両のフロントカメラが捉えた道路シーンからの意味的識別タスクとして,この課題に取り組む。
具体的には、直接物体検出(YOLOv13)、分割支援分類(SAM2対EfficientNetV2対YOLOv13)、クエリベースの視覚言語モデル、VLM(Qwen2.5-VL-7b対Qwen2.5-VL-32b対Qwen2.5-VL-32b)である。
その結果、直接物体検出(YOLOv13)とQwen2.5-VL-32bは、他の手法よりも大幅に優れており、マクロF1スコアは0.84以上であることがわかった。
特に大型のVLM (Qwen2.5-VL-32b) は、特に夜間の悪条件において、信号機のような小型で安全に重要な物体を識別するための優れた堅牢性と性能を示した。
逆に、セグメンテーション支援パラダイムは「パート・ヴァース・ホール」セマンティックギャップに悩まされ、リコールの失敗に繋がった。
その結果、従来の検出器のリアルタイム効率と、大型のVLMが提供するよりリッチなコンテキスト理解と堅牢性との根本的なトレードオフが明らかになった。
これらの知見は、将来の人間を意識したインテリジェントドライバ監視システムの設計のための重要な洞察と実践的なガイダンスを提供する。
関連論文リスト
- A Comparative Evaluation of Large Vision-Language Models for 2D Object Detection under SOTIF Conditions [2.7694879331630182]
本稿では、安全クリティカルな2次元物体検出のためのLVLM(Large Vision-Language Models)を体系的に評価する。
PeSOTIFデータセットは、ロングテール交通シナリオと環境劣化のベンチマークである。
LVLMは複雑な自然シナリオの25%以上をリコールしてYOLOベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-30T10:58:24Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Salient Object Detection in Traffic Scene through the TSOD10K Dataset [22.615252113004402]
Traffic Salient Object Detection (TSOD) は、セマンティック(衝突リスクなど)と視覚的サリエンスを組み合わせることで、安全を運転する上で重要なオブジェクトを分割することを目的としている。
本研究は,インテリジェントトランスポートシステムにおける安全対応型サリエンシ分析の基盤を初めて確立するものである。
論文 参考訳(メタデータ) (2025-03-21T07:21:24Z) - FENet: Focusing Enhanced Network for Lane Detection [0.0]
この研究は、Focusing Smpling、Partial Field of View Evaluation、Enhanced FPN Architecture、Directional IoU Lossで拡張されたネットワークのパイオニアである。
実験では、均一なアプローチとは異なり、重要な遠隔の細部を強調しながら、集中サンプリング戦略を実証した。
今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。
論文 参考訳(メタデータ) (2023-12-28T17:52:09Z) - DRUformer: Enhancing the driving scene Important object detection with
driving relationship self-understanding [50.81809690183755]
交通事故はしばしば致命傷を負い、2023年まで5000万人以上の死者を出した。
従来の研究は、主に個々の参加者の重要性を評価し、それらを独立した存在として扱うものであった。
本稿では、重要な物体検出タスクを強化するために、運転シーン関連自己理解変換器(DRUformer)を紹介する。
論文 参考訳(メタデータ) (2023-11-11T07:26:47Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。