Fugu-MT 論文翻訳(概要): Making Large Language Models Better Planners with Reasoning-Decision Alignment

論文の概要: Making Large Language Models Better Planners with Reasoning-Decision Alignment

arxiv url: http://arxiv.org/abs/2408.13890v1
Date: Sun, 25 Aug 2024 16:43:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 15:32:15.756247
Title: Making Large Language Models Better Planners with Reasoning-Decision Alignment
Title（参考訳）: Reasoning-Decisionアライメントによる大規模言語モデルの改善
Authors: Zhijian Huang, Tao Tang, Shaoxiang Chen, Sihao Lin, Zequn Jie, Lin Ma, Guangrun Wang, Xiaodan Liang,
Abstract要約: マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
参考スコア（独自算出の注目度）: 70.5381163219608
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data-driven approaches for autonomous driving (AD) have been widely adopted in the past decade but are confronted with dataset bias and uninterpretability. Inspired by the knowledge-driven nature of human driving, recent approaches explore the potential of large language models (LLMs) to improve understanding and decision-making in traffic scenarios. They find that the pretrain-finetune paradigm of LLMs on downstream data with the Chain-of-Thought (CoT) reasoning process can enhance explainability and scene understanding. However, such a popular strategy proves to suffer from the notorious problems of misalignment between the crafted CoTs against the consequent decision-making, which remains untouched by previous LLM-based AD methods. To address this problem, we motivate an end-to-end decision-making model based on multimodality-augmented LLM, which simultaneously executes CoT reasoning and carries out planning results. Furthermore, we propose a reasoning-decision alignment constraint between the paired CoTs and planning results, imposing the correspondence between reasoning and decision-making. Moreover, we redesign the CoTs to enable the model to comprehend complex scenarios and enhance decision-making performance. We dub our proposed large language planners with reasoning-decision alignment as RDA-Driver. Experimental evaluations on the nuScenes and DriveLM-nuScenes benchmarks demonstrate the effectiveness of our RDA-Driver in enhancing the performance of end-to-end AD systems. Specifically, our RDA-Driver achieves state-of-the-art planning performance on the nuScenes dataset with 0.80 L2 error and 0.32 collision rate, and also achieves leading results on challenging DriveLM-nuScenes benchmarks with 0.82 L2 error and 0.38 collision rate.
Abstract（参考訳）: データ駆動型自動運転(AD)アプローチは、過去10年間に広く採用されてきたが、データセットバイアスと解釈不能に直面している。人間の運転の知識駆動性にインスパイアされた最近のアプローチでは、交通シナリオにおける理解と意思決定を改善するために、大規模言語モデル(LLM)の可能性を探っている。彼らは、下流データ上でのLLMのトレーニング前ファインチューンパラダイムが、Chain-of-Thought (CoT)推論プロセスによって説明可能性とシーン理解を高めることを発見した。しかし、このような一般的な戦略は、工芸品のCoTと、それに伴う意思決定との不一致という悪名高い問題に悩まされていることを証明している。この問題に対処するため,我々は,CoT推論を同時に実行し,計画結果を実行するマルチモーダリティ拡張LDMに基づくエンドツーエンド意思決定モデルを構築した。さらに,2組のCoTと計画結果との推論・決定整合性制約を提案し,推論と意思決定の対応性を示す。さらに、複雑なシナリオを理解し、意思決定性能を向上させるために、CoTを再設計する。提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。 nuScenes と DriveLM-nuScenes のベンチマーク実験により,RDA-Driver の有効性が実証された。具体的には、我々のRDA-Driverは、0.80L2エラーと0.32衝突率のnuScenesデータセット上で最先端の計画性能を達成し、さらに0.82L2エラーと0.38衝突率のDriveLM-nuScenesベンチマークの挑戦的な結果を得る。

関連論文リスト

Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文参考訳（メタデータ） (2026-02-09T06:29:54Z)
DecisionLLM: Large Language Models for Long Sequence Decision Exploration [26.033533195580933]
大規模言語モデル(LLM)は複雑な推論や計画タスクにおいて顕著な成功を収めた。本研究では,LLMのオフライン意思決定タスクへの適用について検討する。トラジェクトリデータを自然言語のタスク記述と整合させることで、我々のモデルは将来的な決定を自動回帰的に予測できる。
論文参考訳（メタデータ） (2026-01-15T07:42:02Z)
Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning [22.177866778776814]
本稿では,高レベルプランニングときめ細かいCoT推論の両方を改善するために設計された2段階のフレームワークを提案する。第1段階では,高度なLCMを用いてCoTを蒸留して高レベル誘導を行い,それを教師付き微調整に用いる。第2段階では、最終出力と高レベルガイダンスの品質を協調的に最適化するガイダンス対応RL手法を導入する。
論文参考訳（メタデータ） (2025-10-02T09:28:13Z)
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。 LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文参考訳（メタデータ） (2025-07-21T16:14:41Z)
Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文参考訳（メタデータ） (2025-07-02T18:27:42Z)
RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。 CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文参考訳（メタデータ） (2025-05-19T16:25:55Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。 LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文参考訳（メタデータ） (2024-12-31T04:50:15Z)
Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文参考訳（メタデータ） (2024-12-05T14:21:18Z)
Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文参考訳（メタデータ） (2024-10-08T05:26:28Z)
Deliberate Reasoning for LLMs as Structure-aware Planning with Accurate World Model [14.480267340831542]
大規模言語モデル(LLM)のためのSWAP(Structure-Aware Planning)を提案する。 SWAPは、世界モデルによる推論プロセスのガイドとして構造情報を導入し、ステップ上のソフト検証メカニズムを提供する。 SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文参考訳（メタデータ） (2024-10-04T04:23:36Z)
The Role of Deductive and Inductive Reasoning in Large Language Models [35.43513487137371]
大規模言語モデル(LLM)は人工知能、特に推論タスクにおいて大きな進歩を遂げている。本稿では, 帰納的推論と帰納的推論を動的に統合することにより, LLM推論を強化するDID法を提案する。以上の結果から,DIDはLLMにおける推論のための,より堅牢で認知に整合した枠組みを提供する可能性が示唆された。
論文参考訳（メタデータ） (2024-10-03T18:30:47Z)
Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文参考訳（メタデータ） (2024-09-19T14:36:00Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving [43.156632952193966]
従来のエンド・ツー・エンドの運転モデルは、トレーニング・ディストリビューション内での珍しいまたは目に見えない入力のために、長い尾のイベントに悩まされる。オブジェクトレベルの知識に世界をトークン化する新しい多モード大規模言語モデル(MM-LLM)であるTOKENを提案する。 ToKENは、従来のエンドツーエンドの駆動モデルを活用することにより、データの不足と非効率なトークン化を効果的に軽減する。
論文参考訳（メタデータ） (2024-07-01T04:34:50Z)
P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models [15.969452637480167]
我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。 PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
論文参考訳（メタデータ） (2024-06-17T10:22:00Z)
Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。 L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文参考訳（メタデータ） (2023-12-07T03:55:51Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。