論文の概要: Exploring Expert Failures Improves LLM Agent Tuning
- arxiv url: http://arxiv.org/abs/2504.13145v1
- Date: Thu, 17 Apr 2025 17:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:09.729913
- Title: Exploring Expert Failures Improves LLM Agent Tuning
- Title(参考訳): LLMエージェントチューニングを改善したエキスパートの失敗を探る
- Authors: Li-Cheng Lan, Andrew Bai, Minhao Cheng, Ruochen Wang, Cho-Jui Hsieh, Tianyi Zhou,
- Abstract要約: 本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
- 参考スコア(独自算出の注目度): 76.33081293047611
- License:
- Abstract: Large Language Models (LLMs) have shown tremendous potential as agents, excelling at tasks that require multiple rounds of reasoning and interactions. Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for finetuning LLMs as agents: it first imitates expert-generated successful trajectories and further improves agentic skills through iterative fine-tuning on successful, self-generated trajectories. However, since the expert (e.g., GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler scenarios, many complex subtasks remain unsolved and persistently out-of-distribution (OOD). Upon investigating these challenging subtasks, we discovered that previously failed expert trajectories can often provide valuable guidance, e.g., plans and key actions, that can significantly improve agent exploration efficiency and acquisition of critical skills. Motivated by these observations, we propose Exploring Expert Failures (EEF), which identifies beneficial actions from failed expert trajectories and integrates them into the training dataset. Potentially harmful actions are meticulously excluded to prevent contamination of the model learning process. By leveraging the beneficial actions in expert failures, EEF successfully solves some previously unsolvable subtasks and improves agent tuning performance. Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT (53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new state-of-the-art as the first method to surpass a score of 0.81 in WebShop and exceed 81 in SciWorld.
- Abstract(参考訳): 大規模言語モデル(LLM)はエージェントとして大きな可能性を示し、複数の推論と相互作用を必要とするタスクに優れています。
Rejection Smpling Fine-Tuning (RFT) は、LSMをエージェントとして微調整する有効な方法として登場し、まず専門家が作成した成功した軌道を模倣し、成功した自己生成軌道を反復的に微調整することで、さらにエージェントスキルを向上させる。
しかし、専門家(例: GPT-4)は、主に単純なサブタスクに成功し、RFTは本質的に単純なシナリオを好んでいるため、多くの複雑なサブタスクは未解決であり、持続的にアウト・オブ・ディストリビューション(OOD)である。
これらの課題を調査した結果、これまで失敗した専門家の軌跡は、しばしば、エージェント探索の効率を大幅に向上させ、重要なスキルの獲得を可能にする貴重なガイダンス、例えば計画や重要な行動を提供することができることがわかった。
これらの観測によって動機づけられた探索的専門家障害(EEF)は、失敗する専門家の軌道からの有益な行動を特定し、トレーニングデータセットに統合する。
潜在的に有害な行動は、モデル学習プロセスの汚染を防ぐために慎重に除外される。
専門家の失敗における有益なアクションを活用することで、EEFは未解決のいくつかのサブタスクをうまく解決し、エージェントチューニングのパフォーマンスを向上させる。
興味深いことに、我々のアプローチはWebShopの62%の勝利率を達成し、RFT(53。
6\%), GPT-4 (35。
WebShopのスコア0.81を超え、SciWorldのスコア81を超えた最初の方法として、新しい最先端技術を設定しました。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy [47.42940885853956]
A$3$TはAutonomousを実現するフレームワークである。
法律の様式における代理人軌道の
AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
論文 参考訳(メタデータ) (2024-03-21T17:43:44Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。
これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。
これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文 参考訳(メタデータ) (2024-02-18T17:10:07Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - GAIL-PT: A Generic Intelligent Penetration Testing Framework with
Generative Adversarial Imitation Learning [2.3309136820332164]
RLをベースとしたPTにおいて,エージェントがよりよい判断を下すための専門家の知識を導入する。
GAIL-PTと表記される汎用的知的浸透テストフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T04:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。