論文の概要: Large Language Model based Interactive Decision-Making for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.23513v1
- Date: Sun, 26 Apr 2026 03:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.403892
- Title: Large Language Model based Interactive Decision-Making for Autonomous Driving
- Title(参考訳): 大規模言語モデルに基づく自律運転のための対話型意思決定
- Authors: Xinwei Dong, Jiyang Li, Jiabin Xie, Yang Yi, Tianshang Jia, Shiyu Fang, Ye Tian, Peng Hang,
- Abstract要約: 高複雑性の混合交通シナリオでは、既存の自律運転システムは、過度に保守的な振る舞いをデフォルトとする。
本稿では,シーン理解と意図認識の相互作用を増強する大規模言語モデルに基づく対話型意思決定フレームワークを提案する。
クラスタ駆動シミュレータの実験では、提案手法は安全性、快適性、効率の指標で従来のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 9.806333521695466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-conflict mixed-traffic scenarios involving human-driven and autonomous vehicles, most existing autonomous driving systems default to overly conservative behaviors, lack proactive interaction, and consequently suffer from limited public acceptance. To mitigate intent misunderstandings and decision failures, we present a Large Language Model based interactive decision-making framework that augments scene understanding and intent-aware interaction to jointly improve safety and efficiency. The approach uses Object-Process Methodology to semantically model complex multi-vehicle scenes, abstracting low-level perceptual data into objects, processes, and relations, thereby streamlining reasoning over latent causal structure. Building on this representation, the Large Language Model parses both explicit and implicit intents of surrounding agents and, under jointly enforced safety and efficiency constraints, selects candidate maneuvers. We further generate perturbed trajectory candidates via Monte Carlo sampling and evaluate them to obtain an optimized executable trajectory. To foster transparency and coordination with nearby road users, the final decision is translated by the Large Language Model into concise natural-language messages and broadcast through an external Human-Machine Interface, completing a closed loop from scene understanding to action to language. Experiments in a cluster driving simulator demonstrate that the proposed method outperforms traditional baselines across safety, comfort, and efficiency metrics, while a Turing-test-style evaluation indicates a high degree of human-likeness in decision making. Besides, these results suggest that coupling semantic scene abstraction with Large Language Model mediated intent reasoning and language-based eHMI communication offers a practical pathway toward interactive, trustworthy autonomous driving in dense mixed traffic.
- Abstract(参考訳): 人間が運転する自動車と自動運転車の混成交通シナリオでは、既存の自動運転システムは、過度に保守的な振る舞いをしており、積極的相互作用が欠如しており、結果として公共の受け入れが制限されている。
意図の誤解と意思決定の失敗を軽減するため,大規模言語モデルに基づく対話型意思決定フレームワークを提案する。
このアプローチでは、Object-Process Methodologyを使用して、複雑なマルチサイクルシーンをセマンティックにモデル化し、低レベルの知覚データをオブジェクト、プロセス、関係に抽象化し、潜在因果構造に対する推論を合理化する。
この表現に基づいて、Large Language Modelは周辺エージェントの明示的意図と暗黙的意図の両方を解析し、共同で安全と効率の制約を課し、候補の操作を選択する。
さらに、モンテカルロサンプリングを用いて摂動軌道候補を生成し、それらを評価して、最適化可能な軌道を得る。
近隣の道路利用者との透明性と協調を促進するため、最終決定はLarge Language Modelによって簡潔な自然言語メッセージに変換され、外部のヒューマン・マシン・インタフェースを介して放送され、シーン理解からアクション・トゥ・ランゲージへの閉ループが完了する。
クラスタ駆動シミュレータの実験では、提案手法は安全性、快適性、効率の指標で従来のベースラインよりも優れており、チューリングテストスタイルの評価は意思決定において高い人間の類似性を示している。
これらの結果は,大規模言語モデルによる意図推論と言語に基づくeHMIコミュニケーションを介するセマンティックシーンの抽象化が,密混合交通における対話的かつ信頼性の高い自律運転への実践的経路となることを示唆している。
関連論文リスト
- Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。
本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。
nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-24T05:59:10Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Large Language Models for Pedestrian Safety: An Application to Predicting Driver Yielding Behavior at Unsignalized Intersections [5.913801021011149]
大型言語モデル(LLM)は異種交通データからパターンを抽出するのに適しており、ドライバーと歩行者の相互作用の正確なモデリングを可能にする。
本稿では,GPT-4oが常に高い精度とリコールを達成するのに対して,Deepseek-V3は高精度であることを示す。
論文 参考訳(メタデータ) (2025-09-24T00:25:19Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。