論文の概要: BATON: A Multimodal Benchmark for Bidirectional Automation Transition Observation in Naturalistic Driving
- arxiv url: http://arxiv.org/abs/2604.07263v1
- Date: Wed, 08 Apr 2026 16:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.632925
- Title: BATON: A Multimodal Benchmark for Bidirectional Automation Transition Observation in Naturalistic Driving
- Title(参考訳): BATON:自然運転における双方向自動遷移観測のためのマルチモーダルベンチマーク
- Authors: Yuhang Wang, Yiyao Xu, Chaoyun Yang, Lingyao Li, Jingran Sun, Hao Zhou,
- Abstract要約: 既存の運転自動化(DA)システムは、DAにいつ参加するかを決めるために人間のドライバーに依存している。
BATONは127人のドライバーと136.6時間の運転における現実のDA使用量を自然言語で分析するデータセットである。
データセットは、フロントビュービデオ、キャビン内ビデオ、デコードされたCANバス信号、レーダーベースのリード車間相互作用、GPSからのルートコンテキストを同期する。
その結果、フロントビュービデオは運転状態ではなく道路状況を捉え、インキャビンビデオは運転準備を反映するが、外部シーンは反映しないことがわかった。
- 参考スコア(独自算出の注目度): 18.15118596168445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing driving automation (DA) systems on production vehicles rely on human drivers to decide when to engage DA while requiring them to remain continuously attentive and ready to intervene. This design demands substantial situational judgment and imposes significant cognitive load, leading to steep learning curves, suboptimal user experience, and safety risks from both over-reliance and delayed takeover. Predicting when drivers hand over control to DA and when they take it back is therefore critical for designing proactive, context-aware HMI, yet existing datasets rarely capture the multimodal context, including road scene, driver state, vehicle dynamics, and route environment. To fill this gap, we introduce BATON, a large-scale naturalistic dataset capturing real-world DA usage across 127 drivers, and 136.6 hours of driving. The dataset synchronizes front-view video, in-cabin video, decoded CAN bus signals, radar-based lead-vehicle interaction, and GPS-derived route context, forming a closed-loop multimodal record around each control transition. We define three benchmark tasks: driving action understanding, handover prediction, and takeover prediction, and evaluate baselines spanning sequence models, classical classifiers, and zero-shot VLMs. Results show that visual input alone is insufficient for reliable transition prediction: front-view video captures road context but not driver state, while in-cabin video reflects driver readiness but not the external scene. Incorporating CAN and route-context signals substantially improves performance over video-only settings, indicating strong complementarity across modalities. We further find takeover events develop more gradually and benefit from longer prediction horizons, whereas handover events depend more on immediate contextual cues, revealing an asymmetry with direct implications for HMI design in assisted driving systems.
- Abstract(参考訳): 既存の運転自動化(DA)システムは、人間ドライバーがDAをいつ関与するかを判断し、継続的に注意し、介入する準備ができている。
この設計は、重大な状況判断を必要とし、大きな認知的負荷を課し、急激な学習曲線、最適ユーザエクスペリエンス、および過度な信頼と遅延したテイクオーバーによる安全性リスクをもたらす。
したがって、ドライバーがDAに制御を委譲し、それを返却する際の予測は、アクティブでコンテキスト対応のHMIを設計する上で重要であるが、既存のデータセットは、道路シーン、ドライバー状態、車両のダイナミクス、ルート環境など、マルチモーダルなコンテキストをキャプチャすることは滅多にない。
このギャップを埋めるために、BATONは127人のドライバーと136.6時間の運転で現実世界のDA使用量をキャプチャする大規模な自然言語データセットである。
データセットは、フロントビュービデオ、キャビン内ビデオ、デコードされたCANバス信号、レーダーベースのリード車間相互作用、GPS由来のルートコンテキストを同期し、各コントロールトランジションの周りにクローズドループマルチモーダルレコードを形成する。
動作理解、ハンドオーバ予測、テイクオーバ予測の3つのベンチマークタスクを定義し、シーケンスモデルにまたがるベースライン、古典的分類器、ゼロショットVLMを評価する。
フロントビュービデオは道路状況をキャプチャするが、運転状態は捉えないが、インキャビンビデオは運転準備を反映するが、外部シーンは反映しない。
CANとルートコンテキストの信号を組み込むことで、ビデオのみの設定よりも性能が大幅に向上し、モダリティ間の強い相補性を示す。
さらに、テイクオーバイベントはより徐々に発展し、より長い予測地平線から恩恵を受けるのに対し、ハンドオーバイベントは文脈的手がかりに依存し、補助駆動システムにおいてHMI設計に直接的な意味を持つ非対称性を明らかにする。
関連論文リスト
- FlowDrive: Energy Flow Field for End-to-End Autonomous Driving [50.89871153094958]
FlowDriveは、物理的に解釈可能なエネルギーベースのフローフィールドを導入し、セマンティックな前提と安全性をBEV空間にエンコードする新しいフレームワークである。
NAVSIM v2ベンチマークの実験では、FlowDriveが最先端のパフォーマンスを86.3で達成し、安全性と計画品質の両方において以前のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-09-17T13:51:33Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - CEMFormer: Learning to Predict Driver Intentions from In-Cabin and
External Cameras via Spatial-Temporal Transformers [5.572431452586636]
CEM(Cross-View Episodic Memory Transformer)と呼ばれる新しいフレームワークを導入する。
CEMは統合メモリ表現を使用して、ドライバーの意図予測を改善する。
本稿では,運転コンテキストを補助的監視信号として組み込んで予測性能を向上させる新しいコンテキスト一貫性損失を提案する。
論文 参考訳(メタデータ) (2023-05-13T05:27:36Z) - Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction [4.640835690336652]
マルチモーダル車軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。
本手法は,現場のエージェントが提示する社会的特徴と,身体環境の制約を考慮に入れたものである。
すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。
論文 参考訳(メタデータ) (2023-02-21T18:42:24Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [50.936478241688114]
非客観的運転経験のモデル化は困難であり,既存手法では運転経験蓄積手順を模擬する機構が欠如している。
本稿では,運転経験蓄積手順をモデル化するFeedBack Loop Network (FBLNet)を提案する。
提案モデルでは,既存の手法に対して強い優位性を示し,2つのドライバー注意ベンチマークデータセットの性能向上を実現している。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Exploring Attention GAN for Vehicle Motion Prediction [2.887073662645855]
身体的・社会的文脈を考慮した動き予測モデルにおける注意の影響について検討した。
本稿では,Argoverse Motion Forecasting Benchmark 1.1 を用いて提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T13:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。