論文の概要: VISTA: Vision-Language Imitation of Situational Thinking and Attention for Human-Like Driver Focus in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2508.05852v1
- Date: Thu, 07 Aug 2025 21:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.011676
- Title: VISTA: Vision-Language Imitation of Situational Thinking and Attention for Human-Like Driver Focus in Dynamic Environments
- Title(参考訳): VISTA:動的環境に着目した人間ライクドライバのための状況思考と注意の視覚言語模倣
- Authors: Kaiser Hamid, Khandakar Ashrafi Akbar, Nade Liang,
- Abstract要約: 運転者の視線の変化を自然言語でモデル化する視覚言語フレームワークを提案する。
提案手法は,低レベルキューとトップダウンコンテキストの両方を統合し,視線行動の言語による記述を可能にする。
その結果,微調整モデルでは,注目シフト検出や解釈可能性において汎用VLMよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver visual attention prediction is a critical task in autonomous driving and human-computer interaction (HCI) research. Most prior studies focus on estimating attention allocation at a single moment in time, typically using static RGB images such as driving scene pictures. In this work, we propose a vision-language framework that models the changing landscape of drivers' gaze through natural language, using few-shot and zero-shot learning on single RGB images. We curate and refine high-quality captions from the BDD-A dataset using human-in-the-loop feedback, then fine-tune LLaVA to align visual perception with attention-centric scene understanding. Our approach integrates both low-level cues and top-down context (e.g., route semantics, risk anticipation), enabling language-based descriptions of gaze behavior. We evaluate performance across training regimes (few shot, and one-shot) and introduce domain-specific metrics for semantic alignment and response diversity. Results show that our fine-tuned model outperforms general-purpose VLMs in attention shift detection and interpretability. To our knowledge, this is among the first attempts to generate driver visual attention allocation and shifting predictions in natural language, offering a new direction for explainable AI in autonomous driving. Our approach provides a foundation for downstream tasks such as behavior forecasting, human-AI teaming, and multi-agent coordination.
- Abstract(参考訳): ドライバーの視覚的注意予測は、自律運転とヒューマン・コンピュータ・インタラクション(HCI)研究において重要な課題である。
多くの先行研究は、通常、運転シーン画像のような静的なRGB画像を用いて、1つの瞬間に注意割当を推定することに焦点を当てている。
本研究では,一人のRGB画像に対する少数ショット学習とゼロショット学習を用いて,運転者の視線の変化を自然言語でモデル化する視覚言語フレームワークを提案する。
我々は、人間のループからのフィードバックを用いてBDD-Aデータセットから高品質なキャプションをキュレートし、精製し、その後、微調整のLLaVAを使用して、視覚的知覚と注意中心のシーン理解を一致させる。
提案手法では,低レベルキューとトップダウンコンテキスト(ルートセマンティクス,リスク予測など)を統合し,言語による視線行動の記述を可能にする。
我々は、訓練体制(フェーショット、ワンショット)におけるパフォーマンスを評価し、セマンティックアライメントと応答の多様性のためのドメイン固有の指標を導入する。
その結果,微調整モデルでは,注目シフト検出や解釈可能性において汎用VLMよりも優れていた。
私たちの知る限り、これは自然言語でドライバーの視覚的注意の割り当てと予測のシフトを生成する最初の試みの1つであり、自律運転における説明可能なAIのための新しい方向を提供する。
我々のアプローチは、行動予測、人間とAIのコラボレーション、マルチエージェントの協調といった下流タスクの基盤を提供する。
関連論文リスト
- InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving [3.8737986316149775]
我々はInsightDriveと呼ばれる新しいエンドツーエンドの自動運転手法を提案する。
言語誘導されたシーン表現によって知覚を整理する。
実験では、InsightDriveはエンドツーエンドの自動運転において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-17T10:52:32Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation [0.0]
doScenesは、人間と車両の命令インタラクションの研究を促進するために設計された、新しいデータセットである。
DoScenesは命令と駆動応答のギャップを埋め、コンテキスト認識と適応計画を可能にする。
論文 参考訳(メタデータ) (2024-12-08T11:16:47Z) - Driver Activity Classification Using Generalizable Representations from Vision-Language Models [0.0]
本稿では,視覚言語モデルからの一般化可能な表現をドライバ活動分類に活用する新しいアプローチを提案する。
この結果から,視覚言語表現は運転監視システムにとって有望な道筋であることが示唆された。
論文 参考訳(メタデータ) (2024-04-23T10:42:24Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic
Self-Supervision [13.268399018823903]
本稿では,コンテキスト認識型歩行者検出のためのビジョン・ランゲージ・セマンティック・セルフスーパービジョンによる新しいアプローチを提案する。
まず、完全教師付き歩行者検出と文脈分割の両方を学習する自己教師型視覚言語セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS)セマンティック(VLS
第2に,歩行者等を識別しやすくするために,自己指導型プロトタイプ・セマンティック・コントラスト学習法を提案する。
論文 参考訳(メタデータ) (2023-04-06T15:16:29Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。