論文の概要: Decision-Making with Lightweight Confidence-Aware Language Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.25393v1
- Date: Mon, 25 May 2026 03:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.273649
- Title: Decision-Making with Lightweight Confidence-Aware Language Model for Autonomous Driving
- Title(参考訳): 軽量信頼度を考慮した自律走行言語モデルによる意思決定
- Authors: Ruoyu Yao, Ruiguo Zhong, Pei Liu, Mingxing Peng, Rui Yang, Jun Ma,
- Abstract要約: 大規模言語モデル (LLMs) とマルチモーダルLSM (MLLMs) は、自律運転において大きな可能性を実証している。
本稿では,軽量な信頼度を考慮した言語モデルを用いた新たな意思決定フレームワークを提案する。
提案手法は,通常のシナリオと長期シナリオの両方において,SOTA(State-of-the-art)の成功率を達成することを示す。
- 参考スコア(独自算出の注目度): 7.879160320881927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and Multimodal LLMs (MLLMs) have demonstrated immense potential in autonomous driving (AD) by offering human-like reasoning and open-world generalization. However, the excessive computational overhead and high inference latency of these massive models severely hinder their deployment in resource-constrained AD systems. To address this challenge, we propose a novel decision-making framework utilizing a lightweight confidence-aware language model, which bridges the gap between complex multimodal intention reasoning and efficient inference. Specifically, we design a multi-agent collaborative workflow, comprising action voting, confidence assessment, and summarization agents, to generate high-quality, confidence-annotated decision demonstrations via explicit Chain-of-Thought (CoT) reasoning. These demonstrations are then distilled into a lightweight language model featuring a dual-head architecture, enabling the joint prediction of decision probabilities and the generation of textual rationales. The distillation is realized via a confidence-aware fine-tuning strategy coupled with Retrieval Augmented Generation (RAG) to enhance the model's adaptability and data efficiency. Comprehensive closed-loop experiments on the nuPlan benchmark demonstrate that our approach achieves state-of-the-art (SOTA) success rates in both regular and long-tail scenarios while maintaining low inference latency.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチモーダルLLM(MLLM)は、人間のような推論とオープンワールドの一般化を提供することで、自律運転(AD)において大きな可能性を実証している。
しかし、これらの大規模モデルの過剰な計算オーバーヘッドと高い推論遅延は、リソース制約されたADシステムへの展開を著しく妨げている。
この課題に対処するために、複雑なマルチモーダルな意図推論と効率的な推論のギャップを埋める軽量な信頼度対応言語モデルを用いた、新たな意思決定フレームワークを提案する。
具体的には、行動投票、信頼度評価、要約エージェントを含む多エージェント協調ワークフローを設計し、明示的なCoT(Chain-of-Thought)推論により高品質で信頼性に富んだ意思決定デモを生成する。
これらのデモンストレーションは、二重頭部アーキテクチャを特徴とする軽量言語モデルに蒸留され、決定確率の予測とテキスト論理の生成を可能にする。
蒸留は、信頼性に配慮した微調整戦略とレトリーバル増強生成(RAG)を組み合わせることで、モデルの適応性とデータ効率を向上させる。
nuPlanベンチマークの包括的クローズループ実験により,本手法は予測遅延を低く保ちながら,通常のシナリオと長期シナリオの両方において,最先端(SOTA)の成功率を達成することを示した。
関連論文リスト
- AnE: Pushing the Reasoning Frontier of Multimodal LLMs via Anchor Evolution [61.593935260052795]
Supervised Fine-Tuning (SFT) とReinforcement Learning (RL) による後学習は多モーダル大規模言語モデル(MLLM)における推論の強化に不可欠である
既存のパラダイムは、静的データの制限により、しばしばパフォーマンスのボトルネックに達する。
我々は,真理に順応したデータキュレーションとモデル進化を統合する新しいパラダイムであるアンカー進化(AnE)を提案する。
論文 参考訳(メタデータ) (2026-05-25T08:26:34Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework [20.533408486872702]
大規模言語モデル(LLM)は、特にLVLM(Large Vision-Language Models)の開発において、マルチモーダル学習の急速な進歩を促している。
既存のLVLMトレーニングパラダイムはLLMコンポーネントに過度に依存しており、言語バイアスと言語感受性という2つの重要な堅牢性課題を生み出している。
複数ラウンドの反実的推論を行うことで視覚コントラストデコーディングを拡張する新しい自己批判推論(SCI)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T14:46:19Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。