論文の概要: Looking and Listening Inside and Outside: Multimodal Artificial Intelligence Systems for Driver Safety Assessment and Intelligent Vehicle Decision-Making
- arxiv url: http://arxiv.org/abs/2602.07668v1
- Date: Sat, 07 Feb 2026 19:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.750964
- Title: Looking and Listening Inside and Outside: Multimodal Artificial Intelligence Systems for Driver Safety Assessment and Intelligent Vehicle Decision-Making
- Title(参考訳): ドライバーの安全評価とインテリジェントな車両意思決定のためのマルチモーダル人工知能システム
- Authors: Ross Greer, Laura Fleig, Maitrayee Keskar, Erika Maquiling, Giovanni Tapia Lopez, Angel Martinez-Sanchez, Parthib Roy, Jake Rattigan, Mira Sur, Alejandra Vidrio, Thomas Marcotte, Mohan Trivedi,
- Abstract要約: 本研究は、ドライバーを理解するための付加的な情報源として、オーディオモダリティを論じる。
LILOを音声信号を組み込んで拡張し、L-LIO(L-LIO)フレームワークを構築した。
実験結果によると、音声は特にニュアンスや文脈に富んだシナリオにおいて、安全に関する洞察をもたらす。
- 参考スコア(独自算出の注目度): 30.720516012789357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The looking-in-looking-out (LILO) framework has enabled intelligent vehicle applications that understand both the outside scene and the driver state to improve safety outcomes, with examples in smart airbag deployment, takeover time prediction in autonomous control transitions, and driver attention monitoring. In this research, we propose an augmentation to this framework, making a case for the audio modality as an additional source of information to understand the driver, and in the evolving autonomy landscape, also the passengers and those outside the vehicle. We expand LILO by incorporating audio signals, forming the looking-and-listening inside-and-outside (L-LIO) framework to enhance driver state assessment and environment understanding through multimodal sensor fusion. We evaluate three example cases where audio enhances vehicle safety: supervised learning on driver speech audio to classify potential impairment states (e.g., intoxication), collection and analysis of passenger natural language instructions (e.g., "turn after that red building") to motivate how spoken language can interface with planning systems through audio-aligned instruction data, and limitations of vision-only systems where audio may disambiguate the guidance and gestures of external agents. Datasets include custom-collected in-vehicle and external audio samples in real-world environments. Pilot findings show that audio yields safety-relevant insights, particularly in nuanced or context-rich scenarios where sound is critical to safe decision-making or visual signals alone are insufficient. Challenges include ambient noise interference, privacy considerations, and robustness across human subjects, motivating further work on reliability in dynamic real-world contexts. L-LIO augments driver and scene understanding through multimodal fusion of audio and visual sensing, offering new paths for safety intervention.
- Abstract(参考訳): look-in-look-out(LILO)フレームワークは、外部シーンとドライバ状態の両方を理解するインテリジェントな車両アプリケーションを可能にして、スマートエアバッグデプロイメント、自律制御移行におけるテイクオーバー時間予測、ドライバー注意監視など、安全性の向上を実現している。
本研究は, 運転者, 進化する自律環境において, 乗客, 車両の外部にも, 音声モダリティが付加的な情報源となることを事例として, 本枠組みの強化を提案する。
我々は、LILOを音声信号を組み込んで拡張し、L-LIO(Lear-and-listening inside-and-outside)フレームワークを構築し、マルチモーダルセンサー融合による運転状態の評価と環境理解を強化する。
運転者音声による教師付き学習による潜在的な障害状態(例えば、酔っ払い)の分類、乗客の自然言語命令の収集と分析(例えば、その赤い建物を振り返る)、音声対応の指示データによる計画システムとの対話の動機付け、音声が外部エージェントの指示やジェスチャーを曖昧にする視覚のみのシステムの制限、の3つの事例を評価した。
データセットには、車内カスタムコンパイルと、現実世界の環境における外部オーディオサンプルが含まれる。
実験結果によると、音声は、特に、安全な意思決定や視覚信号だけでは音が重要でない、ニュアンスや文脈に富んだシナリオにおいて、安全関連的な洞察をもたらす。
課題には、環境騒音の干渉、プライバシーの考慮、人間全体の堅牢性などが含まれており、動的な現実世界のコンテキストにおける信頼性に関するさらなる研究を動機付けている。
L-LIOは、オーディオと視覚センサーのマルチモーダル融合によるドライバーとシーン理解を強化し、安全介入のための新しいパスを提供する。
関連論文リスト
- Vision and language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning [2.1379801460200416]
視覚言語モデル(VLM)は、視覚観察を自然言語の概念と整合させる強力な表現学習システムとして登場した。
本稿では、視覚言語表現が、認識、予測、計画パイプラインに統合された場合、シーンの安全性評価と意思決定をどのようにサポートするかを検討する。
論文 参考訳(メタデータ) (2026-02-07T20:04:21Z) - A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving [10.685706490545956]
本稿では,マルチセンサ融合(カメラ,LiDAR,レーダ)と大規模言語モデル(LLM)を付加したVLAアーキテクチャを統合したパーセプション・ランゲージ・アクション(PLA)フレームワークを提案する。
このフレームワークは、低レベルの知覚処理と高レベルの文脈推論を統合して、コンテキスト認識、説明可能、安全に拘束された自律運転を可能にする。
論文 参考訳(メタデータ) (2025-07-31T13:30:47Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Assessing Drivers' Situation Awareness in Semi-Autonomous Vehicles: ASP
based Characterisations of Driving Dynamics for Modelling Scene
Interpretation and Projection [0.0]
我々は,運転者が状況に気付いているかを判断し,人間中心の支援を提供するための枠組みを提案する。
このフレームワークはロボット・オペレーティング・システム(ROS)内のモジュールシステムとして開発され、環境と運転者の状態を検知するモジュールを備えている。
本稿では、運転者の解釈とシーンの投影をモデル化し、推論するAnswer Set Programming(ASP)に基づくアプローチに焦点を当てる。
論文 参考訳(メタデータ) (2023-08-30T09:07:49Z) - Camera-Radar Perception for Autonomous Vehicles and ADAS: Concepts,
Datasets and Metrics [77.34726150561087]
本研究の目的は、ADASおよび自動運転車のカメラおよびレーダーによる認識の現在のシナリオに関する研究を行うことである。
両センサと融合に関する概念と特徴を提示する。
本稿では、ディープラーニングに基づく検出とセグメンテーションタスクの概要と、車両の認識における主要なデータセット、メトリクス、課題、オープンな質問について説明する。
論文 参考訳(メタデータ) (2023-03-08T00:48:32Z) - Audiovisual Affect Assessment and Autonomous Automobiles: Applications [0.0]
このコントリビューションは、課題を予測し、ロードコンテキスト上のマルチモーダルな"オーディオプラスx"におけるモデリングに影響を与える潜在的な方法を提供することを目的としています。
技術的には、乗用車内の個人を全面的にモデル化し、信頼性の高いダイアリゼーションを行う。
結論として、自動感情分析は、最初に選択されたユースケースにおける自動運転車の適用可能性の点まで成熟した。
論文 参考訳(メタデータ) (2022-03-14T20:39:02Z) - VATLD: A Visual Analytics System to Assess, Understand and Improve
Traffic Light Detection [15.36267013724161]
本稿では,自律運転アプリケーションにおける交通信号検知器の精度とロバスト性を評価・理解・改善する視覚分析システム,VATLDを提案する。
歪んだ表現学習は、人間に親しみやすい視覚的要約で人間の認知を強化するために、データ意味を抽出する。
また、視覚分析システムであるVATLDによる様々な性能改善戦略の有効性を実証し、自律運転における安全クリティカルな応用の実践的意義を示す。
論文 参考訳(メタデータ) (2020-09-27T22:39:00Z) - Studying Person-Specific Pointing and Gaze Behavior for Multimodal
Referencing of Outside Objects from a Moving Vehicle [58.720142291102135]
物体選択と参照のための自動車応用において、手指しと目視が広く研究されている。
既存の車外参照手法は静的な状況に重点を置いているが、移動車両の状況は極めて動的であり、安全性に制約がある。
本研究では,外部オブジェクトを参照するタスクにおいて,各モダリティの具体的特徴とそれら間の相互作用について検討する。
論文 参考訳(メタデータ) (2020-09-23T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。