論文の概要: From Scene to Object: Text-Guided Dual-Gaze Prediction
- arxiv url: http://arxiv.org/abs/2604.20191v2
- Date: Tue, 28 Apr 2026 03:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.786217
- Title: From Scene to Object: Text-Guided Dual-Gaze Prediction
- Title(参考訳): シーンからオブジェクトへ:テキストガイドによるデュアルゲイズ予測
- Authors: Zehong Ke, Yanbo Jiang, Jinhao Li, Zhiyuan Liu, Yiqian Tu, Qingwen Meng, Heye Huang, Jianqiang Wang,
- Abstract要約: 解釈可能なドライバーの注意予測は、人間のような自動運転にとって不可欠である。
既存のデータセットは、微粒なオブジェクトレベルのアノテーションではなく、シーンレベルのグローバルな視線のみを提供する。
本稿では,データ構築からモデルアーキテクチャへの完全なパラダイムを確立するための,新しいデュアルブランチの視線予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.32439183328327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretable driver attention prediction is crucial for human-like autonomous driving. However, existing datasets provide only scene-level global gaze rather than fine-grained object-level annotations, inherently failing to support text-grounded cognitive modeling. Consequently, while Vision-Language Models (VLMs) hold great potential for semantic reasoning, this critical data limitations leads to severe text-vision decoupling and visual-bias hallucinations. To break this bottleneck and achieve precise object-level attention prediction, this paper proposes a novel dual-branch gaze prediction framework, establishing a complete paradigm from data construction to model architecture. First, we construct G-W3DA, a object-level driver attention dataset. By integrating a multimodal large language model with the Segment Anything Model 3 (SAM3), we decouple macroscopic heatmaps into object-level masks under rigorous cross-validation, fundamentally eliminating annotation hallucinations. Building upon this high-quality data foundation, we propose the DualGaze-VLM architecture. This architecture extracts the hidden states of semantic queries and dynamically modulates visual features via a Condition-Aware SE-Gate, achieving intent-driven precise spatial anchoring. Extensive experiments on the W3DA benchmark demonstrate that DualGaze-VLM consistently surpasses existing state-of-the-art (SOTA) models in spatial alignment metrics, notably achieving up to a 17.8% improvement in Similarity (SIM) under safety-critical scenarios. Furthermore, a visual Turing test reveals that the attention heatmaps generated by DualGaze-VLM are perceived as authentic by 88.22% of human evaluators, proving its capability to generate rational cognitive priors.
- Abstract(参考訳): 解釈可能なドライバーの注意予測は、人間のような自動運転にとって不可欠である。
しかし、既存のデータセットは、微粒なオブジェクトレベルのアノテーションではなく、シーンレベルのグローバルな視線のみを提供しており、本質的にはテキストグラウンドの認知モデリングをサポートしない。
その結果、VLM(Vision-Language Models)は意味論的推論に大きな可能性を秘めているが、この重要なデータ制限は、テキストビジョンの疎結合と視覚バイアスの幻覚を引き起こす。
本稿では、このボトルネックを克服し、オブジェクトレベルの正確な注意予測を実現するために、データ構築からモデルアーキテクチャへの完全なパラダイムを確立した、新しいデュアルブランチの視線予測フレームワークを提案する。
まず、オブジェクトレベルのドライバー注意データセットであるG-W3DAを構築する。
マルチモーダルな大言語モデルとSegment Anything Model 3 (SAM3)を統合することで、マクロなヒートマップを厳密なクロスバリデーションの下でオブジェクトレベルのマスクに分離し、アノテーションの幻覚を根本的に排除する。
この高品質なデータ基盤を基盤として,DualGaze-VLMアーキテクチャを提案する。
このアーキテクチャは、セマンティッククエリの隠された状態を抽出し、コンディション・アウェアのSEゲートを介して視覚的特徴を動的に変調し、インテント駆動の正確な空間アンカーを実現する。
W3DAベンチマークの大規模な実験は、DualGaze-VLMが空間アライメントのメトリクスにおいて既存の最先端(SOTA)モデルを一貫して上回り、特に安全クリティカルなシナリオ下でのSimisity(SIM)の最大17.8%の改善を実現していることを示している。
さらに、視覚的チューリングテストでは、DualGaze-VLMが生成した注意熱マップが、人間の評価者の88.22%によって本物であると認識され、合理的な認知的先行性を生成する能力が証明されている。
関連論文リスト
- AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition [30.62262381459829]
AULLM++は大規模言語モデル(LLM)を活用した推論指向フレームワークである
AU予測をエビデンス構築、構造モデリング、推論に基づく予測の3段階に定式化する。
AULLM++は、標準ベンチマークで最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2026-03-09T13:45:21Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Towards 3D Object-Centric Feature Learning for Semantic Scene Completion [18.41627244498394]
視覚に基づく3Dセマンティックシーンコンプリート(SSC)は、自動運転の可能性から注目を集めている。
シーンを個々のオブジェクトインスタンスに分解するオブジェクト中心の予測フレームワークであるOceanを提案する。
その結果,Oceanは17.40点,mIoUスコアは20.28点であった。
論文 参考訳(メタデータ) (2025-11-17T06:28:26Z) - FSDAM: Few-Shot Driving Attention Modeling via Vision-Language Coupling [5.609178055761294]
本稿では,100の注釈付き例で共同注意予測とキャプション生成を実現するフレームワークであるFSDAMを提案する。
FSDAMは、注意予測における競合性能を達成し、コヒーレントでコンテキストを考慮した説明を生成する。
本研究は,効果的な注意条件付き生成が限定的な監督によって達成可能であることを示し,説明可能な運転注意システムの実用的展開の可能性を示した。
論文 参考訳(メタデータ) (2025-11-16T17:50:30Z) - Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels [10.827081942898506]
我々は,新しい自己学習弱弱視線推定フレームワーク(ST-WSGE)を紹介する。
画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。
3次元映像データセットと2次元視線目標ラベルを追従タスクから組み合わせることで,本手法は以下の重要な貢献を達成できる。
論文 参考訳(メタデータ) (2025-02-27T16:35:25Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。