論文の概要: DiffAttn: Diffusion-Based Drivers' Visual Attention Prediction with LLM-Enhanced Semantic Reasoning
- arxiv url: http://arxiv.org/abs/2603.28251v1
- Date: Mon, 30 Mar 2026 10:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.335517
- Title: DiffAttn: Diffusion-Based Drivers' Visual Attention Prediction with LLM-Enhanced Semantic Reasoning
- Title(参考訳): DiffAttn: LLM強化セマンティック推論による拡散型ドライバの視覚的注意予測
- Authors: Weimin Liu, Qingkun Li, Jiyuan Qiu, Wenjun Wang, Joshua H. Meng,
- Abstract要約: 本稿では、ドライバの認識パターンをエミュレートし、インテリジェントな車両の視覚的注意予測を促進するためのDiffAttnを提案する。
我々のフレームワークは、インテリジェントな車両における車内人間と機械の相互作用、リスク知覚、運転者の状態測定を改善する可能性を秘めている。
- 参考スコア(独自算出の注目度): 4.57409624068048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drivers' visual attention provides critical cues for anticipating latent hazards and directly shapes decision-making and control maneuvers, where its absence can compromise traffic safety. To emulate drivers' perception patterns and advance visual attention prediction for intelligent vehicles, we propose DiffAttn, a diffusion-based framework that formulates this task as a conditional diffusion-denoising process, enabling more accurate modeling of drivers' attention. To capture both local and global scene features, we adopt Swin Transformer as encoder and design a decoder that combines a Feature Fusion Pyramid for cross-layer interaction with dense, multi-scale conditional diffusion to jointly enhance denoising learning and model fine-grained local and global scene contexts. Additionally, a large language model (LLM) layer is incorporated to enhance top-down semantic reasoning and improve sensitivity to safety-critical cues. Extensive experiments on four public datasets demonstrate that DiffAttn achieves state-of-the-art (SoTA) performance, surpassing most video-based, top-down-feature-driven, and LLM-enhanced baselines. Our framework further supports interpretable driver-centric scene understanding and has the potential to improve in-cabin human-machine interaction, risk perception, and drivers' state measurement in intelligent vehicles.
- Abstract(参考訳): ドライバーの視覚的注意は、潜伏する危険を予測し、交通安全を損なう可能性のある意思決定と制御の操作を直接形成するための重要な手がかりを提供する。
ドライバの認識パターンをエミュレートし、インテリジェントな車両の視覚的注意予測を推し進めるために、DiffAttnを提案する。
ローカルおよびグローバルの両方のシーン特徴をキャプチャするために、エンコーダとしてSwin Transformerを採用し、高密度なマルチスケール条件拡散とクロス層相互作用のためのFeature Fusion Pyramidを組み合わせたデコーダを設計し、デノイジング学習を強化し、局所及びグローバルシーンコンテキストの微粒化をモデル化する。
さらに、大きな言語モデル(LLM)レイヤが組み込まれ、トップダウンのセマンティック推論を強化し、安全クリティカルな手がかりに対する感受性を向上させる。
4つの公開データセットに対する大規模な実験は、DiffAttnが最先端(SoTA)のパフォーマンスを達成し、ほとんどのビデオベース、トップダウン駆動、LDM強化ベースラインを上回っていることを示している。
本フレームワークは、解釈可能なドライバー中心のシーン理解をさらにサポートし、車内人間と機械の相互作用、リスク認識、およびインテリジェントな車両におけるドライバーの状態測定を改善する可能性を秘めている。
関連論文リスト
- ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation [7.362380225654904]
INSIGHTは、危険検出とエッジケース評価を強化するために設計された階層型視覚言語モデル(VLM)フレームワークである。
本手法は,マルチモーダルデータ融合を用いて意味表現と視覚表現を統合し,運転シナリオの正確な解釈を可能にする。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の正確性と正確性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-02-01T01:43:53Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos [22.16190711818432]
本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。
従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。
提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-07T15:47:19Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。