論文の概要: ATLaS: Agent Tuning via Learning Critical Steps
- arxiv url: http://arxiv.org/abs/2503.02197v1
- Date: Tue, 04 Mar 2025 02:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:27.412575
- Title: ATLaS: Agent Tuning via Learning Critical Steps
- Title(参考訳): ATLaS: クリティカルステップを学習するエージェントチューニング
- Authors: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、マルチドメインタスクにまたがる顕著な一般化機能を示す。
既存のエージェントチューニングアプローチでは、典型的には専門家の軌跡全体について教師付き微調整を用いる。
我々は,これらのステップのみにおいて,専門家の軌跡や微粒化における重要なステップを低コストで識別するATLaSを提案する。
- 参考スコア(独自算出の注目度): 39.279048406057264
- License:
- Abstract: Large Language Model (LLM) agents have demonstrated remarkable generalization capabilities across multi-domain tasks. Existing agent tuning approaches typically employ supervised finetuning on entire expert trajectories. However, behavior-cloning of full trajectories can introduce expert bias and weaken generalization to states not covered by the expert data. Additionally, critical steps, such as planning, complex reasoning for intermediate subtasks, and strategic decision-making, are essential to success in agent tasks, so learning these steps is the key to improving LLM agents. For more effective and efficient agent tuning, we propose ATLaS that identifies the critical steps in expert trajectories and finetunes LLMs solely on these steps with reduced costs. By steering the training's focus to a few critical steps, our method mitigates the risk of overfitting entire trajectories and promotes generalization across different environments and tasks. In extensive experiments, an LLM finetuned on only 30% critical steps selected by ATLaS outperforms the LLM finetuned on all steps and recent open-source LLM agents. ATLaS maintains and improves base LLM skills as generalist agents interacting with diverse environments.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、マルチドメインタスクにまたがる顕著な一般化機能を示す。
既存のエージェントチューニングアプローチでは、典型的には専門家の軌跡全体について教師付き微調整を用いる。
しかし、完全な軌道の振舞いの閉包は、専門家バイアスをもたらし、専門家データでカバーされていない状態への一般化を弱める可能性がある。
さらに、計画、中間サブタスクの複雑な推論、戦略的意思決定といった重要なステップは、エージェントタスクの成功に不可欠であるため、これらのステップを学習することがLLMエージェントの改善の鍵となる。
より効率的かつ効率的なエージェントチューニングを実現するため,ATLaSを提案する。
トレーニングの焦点をいくつかの重要なステップに合わせることで、トラジェクトリ全体を過度に適合させるリスクを軽減し、異なる環境やタスクにまたがる一般化を促進する。
広範囲な実験において、ATLaSが選択した30%の臨界ステップで微調整されたLLMは、全てのステップと最近のオープンソースLSMエージェントで微調整されたLLMよりも優れていた。
ATLaSは多様な環境と相互作用するジェネラリストエージェントとして基本的なLLMスキルを維持し改善する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks [2.9449838351181374]
後学習,特に強化学習は,大規模言語モデル(LLM)の新しい学習パラダイムとなった
モデル一般化を強化するための高レベルの抽象計画について,アクション空間内での探索を提案する。
GSM8KとMATHを専門にトレーニングした本手法は,性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-09-13T08:59:31Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。