Fugu-MT 論文翻訳(概要): Enhancing Decision-Making of Large Language Models via Actor-Critic

論文の概要: Enhancing Decision-Making of Large Language Models via Actor-Critic

arxiv url: http://arxiv.org/abs/2506.06376v1
Date: Wed, 04 Jun 2025 14:58:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.240628
Title: Enhancing Decision-Making of Large Language Models via Actor-Critic
Title（参考訳）: Actor-Criticによる大規模言語モデルの意思決定の促進
Authors: Heng Dong, Kefei Duan, Chongjie Zhang,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
参考スコア（独自算出の注目度）: 28.870961806283425
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable advancements in natural language processing tasks, yet they encounter challenges in complex decision-making scenarios that require long-term reasoning and alignment with high-level objectives. Existing methods either rely on short-term auto-regressive action generation or face limitations in accurately simulating rollouts and assessing outcomes, leading to sub-optimal decisions. This paper introduces a novel LLM-based Actor-Critic framework, termed LAC, that effectively improves LLM policies with long-term action evaluations in a principled and scalable way. Our approach addresses two key challenges: (1) extracting robust action evaluations by computing Q-values via token logits associated with positive/negative outcomes, enhanced by future trajectory rollouts and reasoning; and (2) enabling efficient policy improvement through a gradient-free mechanism. Experiments across diverse environments -- including high-level decision-making (ALFWorld), low-level action spaces (BabyAI-Text), and large action spaces (WebShop) -- demonstrate the framework's generality and superiority over state-of-the-art methods. Notably, our approach achieves competitive performance using 7B/8B parameter LLMs, even outperforming baseline methods employing GPT-4 in complex tasks. These results underscore the potential of integrating structured policy optimization with LLMs' intrinsic knowledge to advance decision-making capabilities in multi-step environments.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げているが、長期的な推論と高レベルな目的との整合性を必要とする複雑な意思決定シナリオでは課題に直面している。既存の方法は、短期的な自己回帰的な行動生成か、ロールアウトを正確にシミュレートし、結果を評価するための制限に直面している。本稿では LLM をベースとした Actor-Critic フレームワーク LAC を提案する。提案手法は,(1)ポジティカル/ネガティブな結果に関連付けられたトークンロジットを用いたQ値計算によるロバストな行動評価の抽出,(2)グラデーションフリー機構による効率的な政策改善の実現,の2つの課題に対処する。高レベルの意思決定(ALFWorld)、低レベルのアクションスペース(BabyAI-Text)、大規模なアクションスペース(WebShop)など、さまざまな環境での実験は、最先端のメソッドよりもフレームワークの汎用性と優位性を示している。提案手法は 7B/8B パラメータ LLM を用いて,複雑なタスクにおいて GPT-4 を用いたベースライン手法よりも優れた性能を示す。これらの結果は,多段階環境における意思決定能力を向上するために,構造化政策最適化とLLMの本質的な知識を統合する可能性を示している。

関連論文リスト

Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文参考訳（メタデータ） (2025-07-20T10:38:56Z)
MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-06-05T17:58:13Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Embodied CoT Distillation From LLM To Off-the-shelf Agents [6.318203525449058]
DeDerは、大規模言語モデル(LLM)から具体的推論能力を分解し、蒸留するためのフレームワークである。 ALFREDベンチマークによる我々の実験は、DeDerが先進的な言語計画と蒸留アプローチを超越していることを示している。
論文参考訳（メタデータ） (2024-12-16T07:18:02Z)
Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach [14.32199539218175]
本稿では,LLM(Adaptable Large Language Model)によるオンラインテストフレームワークを提案する。具体的には、LLMの世界の知識と推論能力を活用するために、テンプレート付きプロンプトエンジニアリングを備えた「ジェネレーション・テスト・フィードバック」パイプラインを設計する。
論文参考訳（メタデータ） (2024-12-09T17:27:04Z)
EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-02T16:07:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。