論文の概要: Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
- arxiv url: http://arxiv.org/abs/2505.18098v1
- Date: Fri, 23 May 2025 16:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.237047
- Title: Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
- Title(参考訳): 探索なしプランニング:オフラインゴールコンディションRLによるフロンティアLLMの精製
- Authors: Joey Hong, Anca Dragan, Sergey Levine,
- Abstract要約: 大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
- 参考スコア(独自算出の注目度): 62.984693936073974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel in tasks like question answering and dialogue, but complex tasks requiring interaction, such as negotiation and persuasion, require additional long-horizon reasoning and planning. Reinforcement learning (RL) fine-tuning can enable such planning in principle, but suffers from drawbacks that hinder scalability. In particular, multi-turn RL training incurs high memory and computational costs, which are exacerbated when training LLMs as policies. Furthermore, the largest LLMs do not expose the APIs necessary to be trained in such manner. As a result, modern methods to improve the reasoning of LLMs rely on sophisticated prompting mechanisms rather than RL fine-tuning. To remedy this, we propose a novel approach that uses goal-conditioned value functions to guide the reasoning of LLM agents, that scales even to large API-based models. These value functions predict how a task will unfold given an action, allowing the LLM agent to evaluate multiple possible outcomes, both positive and negative, to plan effectively. In addition, these value functions are trained over reasoning steps rather than full actions, to be a concise and light-weight module that facilitates decision-making in multi-turn interactions. We validate our method on tasks requiring interaction, including tool use, social deduction, and dialogue, demonstrating superior performance over both RL fine-tuning and prompting methods while maintaining efficiency and scalability.
- Abstract(参考訳): 大きな言語モデル(LLM)は、質問応答や対話のようなタスクに優れるが、交渉や説得のような対話を必要とする複雑なタスクには、さらなる長期の推論と計画が必要である。
強化学習(RL)の微調整は原則としてそのような計画を可能にするが、スケーラビリティを損なう欠点に悩まされる。
特に、マルチターンRLトレーニングは高いメモリと計算コストを発生させ、LCMをポリシーとしてトレーニングする際にさらに悪化させる。
さらに、最大のLLMは、そのような方法でトレーニングするために必要なAPIを公開していない。
その結果、LLMの推論を改善するための現代的な手法は、RL微調整よりも洗練されたプロンプト機構に依存している。
そこで本研究では,目標条件付き値関数を用いてLLMエージェントの推論を導出する手法を提案する。
これらの値関数は、タスクがアクションに対してどのように展開されるかを予測し、LLMエージェントが複数の可能な結果(正と負の両方)を効果的に計画することができる。
さらに、これらの値関数は、完全なアクションではなく推論ステップによって訓練され、マルチターン相互作用における意思決定を容易にする簡潔で軽量なモジュールとなる。
ツールの使用,社会的推論,対話など,対話を必要とするタスクに対して本手法の有効性を検証し,RLファインチューニングとプロンプト手法の両面で優れた性能を示しながら,効率と拡張性を維持した。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。