論文の概要: Enhancing Decision-Making of Large Language Models via Actor-Critic
- arxiv url: http://arxiv.org/abs/2506.06376v1
- Date: Wed, 04 Jun 2025 14:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.240628
- Title: Enhancing Decision-Making of Large Language Models via Actor-Critic
- Title(参考訳): Actor-Criticによる大規模言語モデルの意思決定の促進
- Authors: Heng Dong, Kefei Duan, Chongjie Zhang,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
- 参考スコア(独自算出の注目度): 28.870961806283425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable advancements in natural language processing tasks, yet they encounter challenges in complex decision-making scenarios that require long-term reasoning and alignment with high-level objectives. Existing methods either rely on short-term auto-regressive action generation or face limitations in accurately simulating rollouts and assessing outcomes, leading to sub-optimal decisions. This paper introduces a novel LLM-based Actor-Critic framework, termed LAC, that effectively improves LLM policies with long-term action evaluations in a principled and scalable way. Our approach addresses two key challenges: (1) extracting robust action evaluations by computing Q-values via token logits associated with positive/negative outcomes, enhanced by future trajectory rollouts and reasoning; and (2) enabling efficient policy improvement through a gradient-free mechanism. Experiments across diverse environments -- including high-level decision-making (ALFWorld), low-level action spaces (BabyAI-Text), and large action spaces (WebShop) -- demonstrate the framework's generality and superiority over state-of-the-art methods. Notably, our approach achieves competitive performance using 7B/8B parameter LLMs, even outperforming baseline methods employing GPT-4 in complex tasks. These results underscore the potential of integrating structured policy optimization with LLMs' intrinsic knowledge to advance decision-making capabilities in multi-step environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げているが、長期的な推論と高レベルな目的との整合性を必要とする複雑な意思決定シナリオでは課題に直面している。
既存の方法は、短期的な自己回帰的な行動生成か、ロールアウトを正確にシミュレートし、結果を評価するための制限に直面している。
本稿では LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
提案手法は,(1)ポジティカル/ネガティブな結果に関連付けられたトークンロジットを用いたQ値計算によるロバストな行動評価の抽出,(2)グラデーションフリー機構による効率的な政策改善の実現,の2つの課題に対処する。
高レベルの意思決定(ALFWorld)、低レベルのアクションスペース(BabyAI-Text)、大規模なアクションスペース(WebShop)など、さまざまな環境での実験は、最先端のメソッドよりもフレームワークの汎用性と優位性を示している。
提案手法は 7B/8B パラメータ LLM を用いて,複雑なタスクにおいて GPT-4 を用いたベースライン手法よりも優れた性能を示す。
これらの結果は,多段階環境における意思決定能力を向上するために,構造化政策最適化とLLMの本質的な知識を統合する可能性を示している。
関連論文リスト
- Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach [14.32199539218175]
本稿では,LLM(Adaptable Large Language Model)によるオンラインテストフレームワークを提案する。
具体的には、LLMの世界の知識と推論能力を活用するために、テンプレート付きプロンプトエンジニアリングを備えた「ジェネレーション・テスト・フィードバック」パイプラインを設計する。
論文 参考訳(メタデータ) (2024-12-09T17:27:04Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。