論文の概要: FSDAM: Few-Shot Driving Attention Modeling via Vision-Language Coupling
- arxiv url: http://arxiv.org/abs/2511.12708v1
- Date: Sun, 16 Nov 2025 17:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.493573
- Title: FSDAM: Few-Shot Driving Attention Modeling via Vision-Language Coupling
- Title(参考訳): FSDAM:ビジョン・ランゲージ・カップリングによるFew-Shot Driving Attention Modeling
- Authors: Kaiser Hamid, Can Cui, Khandakar Ashrafi Akbar, Ziran Wang, Nade Liang,
- Abstract要約: 本稿では,100の注釈付き例で共同注意予測とキャプション生成を実現するフレームワークであるFSDAMを提案する。
FSDAMは、注意予測における競合性能を達成し、コヒーレントでコンテキストを考慮した説明を生成する。
本研究は,効果的な注意条件付き生成が限定的な監督によって達成可能であることを示し,説明可能な運転注意システムの実用的展開の可能性を示した。
- 参考スコア(独自算出の注目度): 5.609178055761294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding where drivers look and why they shift their attention is essential for autonomous systems that read human intent and justify their actions. Most existing models rely on large-scale gaze datasets to learn these patterns; however, such datasets are labor-intensive to collect and time-consuming to curate. We present FSDAM (Few-Shot Driver Attention Modeling), a framework that achieves joint attention prediction and caption generation with approximately 100 annotated examples, two orders of magnitude fewer than existing approaches. Our approach introduces a dual-pathway architecture where separate modules handle spatial prediction and caption generation while maintaining semantic consistency through cross-modal alignment. Despite minimal supervision, FSDAM achieves competitive performance on attention prediction, generates coherent, and context-aware explanations. The model demonstrates robust zero-shot generalization across multiple driving benchmarks. This work shows that effective attention-conditioned generation is achievable with limited supervision, opening new possibilities for practical deployment of explainable driver attention systems in data-constrained scenarios.
- Abstract(参考訳): ドライバーがどこに見えるのか、なぜ注意を移すのかを理解することは、人間の意図を読み、行動を正当化する自律システムにとって不可欠である。
既存のほとんどのモデルは、これらのパターンを学習するために大規模な日食データセットに依存していますが、そのようなデータセットは収集と硬化に時間を要するのです。
FSDAM(Few-Shot Driver Attention Modeling)は,約100の注釈付き例を用いて,共同注意予測とキャプション生成を実現するフレームワークである。
本手法では,モジュール間のアライメントによるセマンティック一貫性を維持しつつ,空間予測とキャプション生成を分離して処理するデュアルパスアーキテクチャを提案する。
最小限の監督にもかかわらず、FSDAMは注意予測において競争性能を達成し、一貫性があり、文脈に合った説明を生成する。
このモデルは、複数の駆動ベンチマークにまたがる堅牢なゼロショット一般化を示す。
この研究は、データ制約のあるシナリオにおいて、効果的な注意条件付き生成が限られた監督で達成可能であることを示し、説明可能な運転注意システムの実用的展開の可能性を開く。
関連論文リスト
- Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Vision-LLMs for Spatiotemporal Traffic Forecasting [14.700408329373998]
大規模言語モデル(LLM)は、グリッドベースのトラフィックデータの複雑な空間的依存関係をモデル化するのに本質的に苦労する。
本稿では,視覚言語融合問題として時間的予測を行う新しいフレームワークであるST-Vision-LLMを提案する。
また,ST-Vision-LLMでは,長期予測精度が15.6%向上し,クロスドメインシナリオでは30.04%以上向上した。
論文 参考訳(メタデータ) (2025-10-13T11:15:56Z) - Where, What, Why: Towards Explainable Driver Attention Prediction [28.677786362573638]
これは空間的注意領域(場所)を共同で予測し、参加する意味論(何)を解析し、注意割当のための認知的推論(なぜ)を提供する新しいタスクパラダイムである。
ドライバー注意予測のための大規模言語モデル駆動フレームワークであるLLadaを提案し、エンドツーエンドアーキテクチャ内でピクセルモデリング、セマンティック解析、認知推論を統合する。
この研究は、自律運転、インテリジェントドライバートレーニング、人間とコンピュータの相互作用など、ドライバーの注意機構のより深い理解に向けた重要なステップとなる。
論文 参考訳(メタデータ) (2025-06-29T04:59:39Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction [12.246649738388388]
SCOUT+はドライバーの視線予測のためのタスクおよびコンテキスト認識モデルである。
DR(eye)VEとBDD-Aの2つのデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2024-04-12T18:29:10Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Scaling Vision-based End-to-End Driving with Multi-View Attention
Learning [7.14967754486195]
本稿では,人間にインスパイアされたHFOVを誘導バイアスとして用いて高分解能画像を処理し,適切な注意機構を組み込むことにより,CILRSを改善するCIL++を提案する。
我々は,車載信号のみによって制御され,条件付き模倣学習によって訓練された強力な視覚ベースの純粋エンドツーエンド駆動ベースラインとして,CILRSをCIL++に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-02-07T02:14:45Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。