論文の概要: Scene-Aware Conversational ADAS with Generative AI for Real-Time Driver Assistance
- arxiv url: http://arxiv.org/abs/2507.10500v1
- Date: Mon, 14 Jul 2025 17:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.576049
- Title: Scene-Aware Conversational ADAS with Generative AI for Real-Time Driver Assistance
- Title(参考訳): リアルタイムドライバ支援のための生成AIを用いたシーン認識会話型ADAS
- Authors: Kyungtae Han, Yitao Chen, Rohit Gupta, Onur Altintas,
- Abstract要約: 本稿では,ジェネレーティブAIコンポーネントを統合するモジュールフレームワークであるScene-Aware Conversational ADAS (SC-ADAS)を提案する。
SC-ADASは、視覚とセンサーのコンテキストに根ざしたマルチターン対話をサポートし、自然言語のレコメンデーションとドライバー確認ADAS制御を可能にする。
我々は、シーン認識、会話、再検討されたマルチターンインタラクションにおけるSC-ADASを評価し、視覚ベースのコンテキスト検索からの遅延の増加などのトレードオフを強調した。
- 参考スコア(独自算出の注目度): 6.856204435631631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autonomous driving technologies continue to advance, current Advanced Driver Assistance Systems (ADAS) remain limited in their ability to interpret scene context or engage with drivers through natural language. These systems typically rely on predefined logic and lack support for dialogue-based interaction, making them inflexible in dynamic environments or when adapting to driver intent. This paper presents Scene-Aware Conversational ADAS (SC-ADAS), a modular framework that integrates Generative AI components including large language models, vision-to-text interpretation, and structured function calling to enable real-time, interpretable, and adaptive driver assistance. SC-ADAS supports multi-turn dialogue grounded in visual and sensor context, allowing natural language recommendations and driver-confirmed ADAS control. Implemented in the CARLA simulator with cloud-based Generative AI, the system executes confirmed user intents as structured ADAS commands without requiring model fine-tuning. We evaluate SC-ADAS across scene-aware, conversational, and revisited multi-turn interactions, highlighting trade-offs such as increased latency from vision-based context retrieval and token growth from accumulated dialogue history. These results demonstrate the feasibility of combining conversational reasoning, scene perception, and modular ADAS control to support the next generation of intelligent driver assistance.
- Abstract(参考訳): 自律運転技術は進歩を続けているが、現在のADAS(Advanced Driver Assistance Systems)は、シーンコンテキストの解釈や自然言語によるドライバーとの関わりに制限されている。
これらのシステムは通常、事前に定義されたロジックに依存しており、対話ベースのインタラクションをサポートしていないため、動的環境やドライバーの意図に適応できない。
本稿では,大規模言語モデル,視覚-テキスト解釈,構造化関数呼び出しなどの生成AIコンポーネントを統合し,リアルタイム,解釈可能,適応的ドライバアシストを可能にするモジュールフレームワークであるScene-Aware Conversational ADAS (SC-ADAS)を提案する。
SC-ADASは、視覚とセンサーのコンテキストに根ざしたマルチターン対話をサポートし、自然言語のレコメンデーションとドライバー確認ADAS制御を可能にする。
CARLAシミュレータとクラウドベースのGenerative AIで実装され、モデル微調整を必要とせず、構造化ADASコマンドとして確認されたユーザインテントを実行する。
SC-ADASをシーン認識、会話、再検討されたマルチターンインタラクションで評価し、視覚ベースのコンテキスト検索からの遅延の増加や、蓄積された対話履歴からのトークン成長といったトレードオフを強調した。
これらの結果は,次世代のインテリジェントドライバ支援を支援するために,会話推論,シーン認識,モジュール型ADAS制御を組み合わせる可能性を示している。
関連論文リスト
- A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving [10.685706490545956]
本稿では,マルチセンサ融合(カメラ,LiDAR,レーダ)と大規模言語モデル(LLM)を付加したVLAアーキテクチャを統合したパーセプション・ランゲージ・アクション(PLA)フレームワークを提案する。
このフレームワークは、低レベルの知覚処理と高レベルの文脈推論を統合して、コンテキスト認識、説明可能、安全に拘束された自律運転を可能にする。
論文 参考訳(メタデータ) (2025-07-31T13:30:47Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Beyond Ontology in Dialogue State Tracking for Goal-Oriented Chatbot [3.2288892242158984]
本稿では,対話状態追跡(DST)性能を向上させる新しい手法を提案する。
提案手法により,Large Language Model (LLM) による対話状態の推測が可能となる。
提案手法は,42.57%のJGAで最先端を達成し,オープンドメインの現実世界での会話でも良好に機能した。
論文 参考訳(メタデータ) (2024-10-30T07:36:23Z) - AutoGuide: Automated Generation and Selection of Context-Aware Guidelines for Large Language Model Agents [74.17623527375241]
オフライン体験からコンテキスト認識ガイドラインを自動的に生成する,AutoGuideという新しいフレームワークを導入する。
その結果,本ガイドラインはエージェントの現在の意思決定プロセスに関連性のある知識の提供を促進する。
評価の結果, AutoGuide は複雑なベンチマーク領域において, 競争ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-03-13T22:06:03Z) - Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文 参考訳(メタデータ) (2024-02-07T21:08:49Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Dialogue-based generation of self-driving simulation scenarios using
Large Language Models [14.86435467709869]
シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。
現在のシミュレーションフレームワークは、高度に専門的なドメイン固有言語によって駆動される。
簡潔な英語の発話と、ユーザの意図をキャプチャする実行可能なコードの間には、しばしばギャップがある。
論文 参考訳(メタデータ) (2023-10-26T13:07:01Z) - AmadeusGPT: a natural language interface for interactive animal
behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。
MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。
アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文 参考訳(メタデータ) (2023-07-10T19:15:17Z) - DOROTHIE: Spoken Dialogue for Handling Unexpected Situations in
Interactive Autonomous Driving Agents [6.639872461610685]
本稿では,対話型シミュレーションプラットフォームであるROAD To Handle Irregular Events (DOROTHIE)を紹介する。
このプラットフォームに基づいて183トライアルのナビゲーションベンチマークであるSituated Dialogue Navigation(SDN)を作成しました。
SDNは、エージェントが人間からの対話の動きを予測し、独自の対話の動きと物理的なナビゲーションアクションを生成する能力を評価するために開発された。
論文 参考訳(メタデータ) (2022-10-22T17:52:46Z) - Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (2022-07-02T09:31:37Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。