論文の概要: Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space
- arxiv url: http://arxiv.org/abs/2512.04601v1
- Date: Thu, 04 Dec 2025 09:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.091713
- Title: Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space
- Title(参考訳): 自然言語アクター批判: 言語空間におけるスケーラブルなオフポリティ学習
- Authors: Joey Hong, Kang Liu, Zhan Ling, Jiecao Chen, Sergey Levine,
- Abstract要約: 自然言語アクター・クライブ(英: Natural Language Actor-Critic)は、スカラー値ではなく自然言語を用いてポリシーを訓練する新しいアクター批判アルゴリズムである。
NLACが既存のトレーニング手法より優れていることを示すために、推論、Webブラウジング、ツールユースを対話タスクと組み合わせた結果を示す。
- 参考スコア(独自算出の注目度): 57.868527884634894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents -- LLMs that dynamically interact with an environment over long horizons -- have become an increasingly important area of research, enabling automation in complex tasks involving tool-use, web browsing, and dialogue with people. In the absence of expert demonstrations, training LLM agents has relied on policy gradient methods that optimize LLM policies with respect to an (often sparse) reward function. However, in long-horizon tasks with sparse rewards, learning from trajectory-level rewards can be noisy, leading to training that is unstable and has high sample complexity. Furthermore, policy improvement hinges on discovering better actions through exploration, which can be difficult when actions lie in natural language space. In this paper, we propose Natural Language Actor-Critic (NLAC), a novel actor-critic algorithm that trains LLM policies using a generative LLM critic that produces natural language rather than scalar values. This approach leverages the inherent strengths of LLMs to provide a richer and more actionable training signal; particularly, in tasks with large, open-ended action spaces, natural language explanations for why an action is suboptimal can be immensely useful for LLM policies to reason how to improve their actions, without relying on random exploration. Furthermore, our approach can be trained off-policy without policy gradients, offering a more data-efficient and stable alternative to existing on-policy methods. We present results on a mixture of reasoning, web browsing, and tool-use with dialogue tasks, demonstrating that NLAC shows promise in outperforming existing training approaches and offers a more scalable and stable training paradigm for LLM agents.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェント -- 長期にわたって環境と動的に相互作用するLLM -- は、ますます重要な研究領域となり、ツールの使用、Webブラウジング、人との対話を含む複雑なタスクにおける自動化を可能にしている。
専門家によるデモンストレーションがない中で、LLMエージェントの訓練は、(しばしばスパースな)報酬関数に関してLLMポリシーを最適化するポリシー勾配法に依存している。
しかし、細かな報酬を伴う長距離タスクでは、軌跡レベルの報酬から学ぶことはうるさくなり、不安定でサンプルの複雑さが高い訓練につながる。
さらに、政策改善は、探索を通じてより良い行動を発見することに集中しており、自然言語空間に行動がある場合、それは困難である。
本稿では,スカラー値ではなく自然言語を生成するジェネレーティブLLM評論家を用いて,LLMポリシーを訓練する,新しいアクター批判アルゴリズムである自然言語アクター・クリティカル(NLAC)を提案する。
このアプローチは、LLMの本質的な強度を活用して、よりリッチでより行動可能なトレーニング信号を提供する。特に、大規模でオープンなアクション空間を持つタスクでは、アクションが最適でない理由を自然言語で説明することは、ランダムな探索に頼ることなく、行動を改善する方法を推論するLLMポリシーにとって非常に有用である。
さらに、当社のアプローチは、政策のグラデーションを伴わずに、既存のオンライン手法よりも、よりデータ効率が高く安定した代替手段を提供することができる。
提案手法は,従来の学習手法より優れていることを示すとともに,LLMエージェントに対して,よりスケーラブルで安定した学習パラダイムを提供する。
関連論文リスト
- LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。