論文の概要: Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking
- arxiv url: http://arxiv.org/abs/2505.20023v1
- Date: Mon, 26 May 2025 14:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.496961
- Title: Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking
- Title(参考訳): 合成自己反射軌道と部分的マスキングを用いたLDM系エージェントの訓練
- Authors: Yihan Chen, Benfeng Xu, Xiaorui Wang, Yongdong Zhang, Zhendong Mao,
- Abstract要約: LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
- 参考スコア(独自算出の注目度): 61.61356842567952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents, which perceive environments and take actions to achieve goals, have become increasingly feasible with the advancements in large language models (LLMs). However, current powerful agents often depend on sophisticated prompt engineering combined with closed-source LLMs like GPT-4. Although training open-source LLMs using expert trajectories from teacher models has yielded some improvements in agent capabilities, this approach still faces limitations such as performance plateauing and error propagation. To mitigate these challenges, we propose STeP, a novel method for improving LLM-based agent training. We synthesize self-reflected trajectories that include reflections and corrections of error steps, which enhance the effectiveness of LLM agents in learning from teacher models, enabling them to become agents capable of self-reflecting and correcting. We also introduce partial masking strategy that prevents the LLM from internalizing incorrect or suboptimal steps. Experiments demonstrate that our method improves agent performance across three representative tasks: ALFWorld, WebShop, and SciWorld. For the open-source model LLaMA2-7B-Chat, when trained using self-reflected trajectories constructed with Qwen1.5-110B-Chat as the teacher model, it achieves comprehensive improvements with less training data compared to agents trained exclusively on expert trajectories.
- Abstract(参考訳): 環境を認識し、目標を達成するために行動を取る自律エージェントは、大規模言語モデル(LLM)の進歩とともに、ますます実現可能になっている。
しかし、現在の強力なエージェントは、GPT-4のようなクローズドソースのLCMと組み合わさって、洗練されたプロンプトエンジニアリングに依存していることが多い。
教師モデルからのエキスパート・トラジェクトリを用いたオープンソースのLLMのトレーニングはエージェント能力にいくつかの改善をもたらしたが、このアプローチはパフォーマンス・プラトーイングやエラーの伝播といった制限に直面している。
これらの課題を緩和するために,LLMに基づくエージェント訓練を改善する新しい方法であるSTePを提案する。
我々は,教師モデルから学習する際のLLMエージェントの有効性を高め,自己回帰と修正が可能なエージェントとなることができる,誤りステップの反射と修正を含む自己反射軌道を合成する。
また,LLMが不適切な,あるいは最適でないステップを内在化しないようにするための部分マスキング戦略も導入した。
実験により,ALFWorld,WebShop,SciWorldの3つの代表的なタスクにおけるエージェント性能が向上することが示された。
オープンソースモデルであるLLaMA2-7B-Chatでは、Qwen1.5-110B-Chatを教師モデルとして構築した自己反射トラジェクトリを用いて訓練すると、専門家のトラジェクトリにのみ訓練されたエージェントと比較して、トレーニングデータが少ないという包括的な改善が達成される。
関連論文リスト
- Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。
LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。
広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文 参考訳(メタデータ) (2024-02-17T18:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。