論文の概要: Reinforcement Learning for Long-Horizon Interactive LLM Agents
- arxiv url: http://arxiv.org/abs/2502.01600v2
- Date: Tue, 04 Feb 2025 14:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:58.489070
- Title: Reinforcement Learning for Long-Horizon Interactive LLM Agents
- Title(参考訳): 長距離対話型LLMエージェントの強化学習
- Authors: Kevin Chen, Marco Cusumano-Towner, Brody Huval, Aleksei Petrenko, Jackson Hamburger, Vladlen Koltun, Philipp Krähenbühl,
- Abstract要約: インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
- 参考スコア(独自算出の注目度): 56.9860859585028
- License:
- Abstract: Interactive digital agents (IDAs) leverage APIs of stateful digital environments to perform tasks in response to user requests. While IDAs powered by instruction-tuned large language models (LLMs) can react to feedback from interface invocations in multi-step exchanges, they have not been trained in their respective digital environments. Prior methods accomplish less than half of tasks in sophisticated benchmarks such as AppWorld. We present a reinforcement learning (RL) approach that trains IDAs directly in their target environments. We formalize this training as a partially observable Markov decision process and derive LOOP, a data- and memory-efficient variant of proximal policy optimization. LOOP uses no value network and maintains exactly one copy of the underlying LLM in memory, making its implementation straightforward and as memory-efficient as fine-tuning a single LLM. A 32-billion-parameter agent trained with LOOP in the AppWorld environment outperforms the much larger OpenAI o1 agent by 9 percentage points (15% relative). To our knowledge, this is the first reported application of RL to IDAs that interact with a stateful, multi-domain, multi-app environment via direct API calls. Our analysis sheds light on the effectiveness of RL in this area, showing that the agent learns to consult the API documentation, avoid unwarranted assumptions, minimize confabulation, and recover from setbacks.
- Abstract(参考訳): インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
命令調整型大規模言語モデル(LLM)を利用したIDAは、多段階のインタフェース呼び出しからのフィードバックに反応するが、それぞれのデジタル環境では訓練されていない。
従来のメソッドは、AppWorldのような高度なベンチマークでタスクの半分以下を達成する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、このトレーニングを部分的に観測可能なマルコフ決定プロセスとして形式化し、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
LOOPは価値ネットワークを使用しず、基礎となるLCMのメモリ上のコピーを正確に1つ保持しているため、その実装は単純で、単一のLMを微調整するのと同じくらいメモリ効率が良い。
AppWorld環境でLOOPでトレーニングされた32ビリオンパラメータエージェントは、より大きなOpenAI O1エージェントよりも9ポイント(15%相対)優れています。
私たちの知る限り、これは、直接API呼び出しを通じてステートフルでマルチドメイン、マルチアプリケーション環境と相互作用する、RLをIDAに適用した最初の報告です。
我々の分析では、この分野におけるRLの有効性に光を当て、エージェントがAPIドキュメンテーションを参照し、不確実な仮定を回避し、妥協を最小限に抑え、後退から回復することを示す。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - ALU: Agentic LLM Unlearning [9.934258340998047]
大規模言語モデル(LLM)における情報除去または抑制は、AI規制、法的コンプライアンス、安全性、プライバシに有用な、望ましい機能である。
現在のLLMアンラーニング手法は、これらの目的の競合する性質のため、未学習の有効性と実用性のバランスをとるのに苦労している。
LLMアンラーニングに対するマルチエージェント・リトレインフリー・モデル非依存アプローチであるALU法を提案する。
論文 参考訳(メタデータ) (2025-02-01T11:45:44Z) - SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な目標指向の社会対話を扱うには不十分である。
トレーニングノイズを最小限に抑えつつ,マルチターンエージェントの動作を最適化するために,Segment-Level Direct Preference Optimization (SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z) - LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble [4.41983632543407]
エージェント学習のための一貫性誘導型報酬アンサンブルフレームワーク(CoREN)を提案する。
このフレームワークは、トレーニングデータセットにおけるドメイン基底の報酬を導出するために、時間的に一貫した報酬の適応的なアンサンブルを使用する。
論文 参考訳(メタデータ) (2024-11-26T06:04:10Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。