論文の概要: STeCa: Step-level Trajectory Calibration for LLM Agent Learning
- arxiv url: http://arxiv.org/abs/2502.14276v1
- Date: Thu, 20 Feb 2025 05:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:17.896209
- Title: STeCa: Step-level Trajectory Calibration for LLM Agent Learning
- Title(参考訳): STeCa:LLMエージェント学習のためのステップレベルの軌道校正
- Authors: Hanlin Wang, Jian Wang, Chak Tou Leong, Wenjie Li,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。
LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory (STeCa)を提案する。
- 参考スコア(独自算出の注目度): 9.678098205818566
- License:
- Abstract: Large language model (LLM)-based agents have shown promise in tackling complex tasks by interacting dynamically with the environment. Existing work primarily focuses on behavior cloning from expert demonstrations and preference learning through exploratory trajectory sampling. However, these methods often struggle in long-horizon tasks, where suboptimal actions accumulate step by step, causing agents to deviate from correct task trajectories. To address this, we highlight the importance of timely calibration and the need to automatically construct calibration trajectories for training agents. We propose Step-Level Trajectory Calibration (STeCa), a novel framework for LLM agent learning. Specifically, STeCa identifies suboptimal actions through a step-level reward comparison during exploration. It constructs calibrated trajectories using LLM-driven reflection, enabling agents to learn from improved decision-making processes. These calibrated trajectories, together with successful trajectory data, are utilized for reinforced training. Extensive experiments demonstrate that STeCa significantly outperforms existing methods. Further analysis highlights that step-level calibration enables agents to complete tasks with greater robustness. Our code and data are available at https://github.com/WangHanLinHenry/STeCa.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。
既存の研究は主に、専門家によるデモンストレーションからの行動クローニングと、探索軌道サンプリングによる嗜好学習に焦点を当てている。
しかしながら、これらの手法は、最適な行動が段階的に蓄積される長期的タスクでしばしば苦労し、エージェントは正しいタスク軌跡から逸脱する。
そこで我々は,時間的キャリブレーションの重要性と,トレーニングエージェントのキャリブレーション・トラジェクトリを自動構築する必要性を強調した。
LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory Calibration (STeCa)を提案する。
特にSTeCaは、探索中のステップレベルの報酬比較を通じて、最適以下の行動を特定する。
LLMリフレクションを用いて校正軌道を構築することで、エージェントはより良い意思決定プロセスから学習することができる。
これらのキャリブレーションされた軌道は、軌道データとともに強化訓練に使用される。
大規模な実験により、STeCaは既存の方法よりも著しく優れていることが示された。
さらに分析によると、ステップレベルのキャリブレーションにより、エージェントはより堅牢なタスクを完了できる。
私たちのコードとデータはhttps://github.com/WangHanLinHenry/STeCaで公開されています。
関連論文リスト
- Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。
これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。
これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文 参考訳(メタデータ) (2024-02-18T17:10:07Z) - Contrastive Trajectory Similarity Learning with Dual-Feature Attention [24.445998309807965]
トレイ類似度尺度は、トラジェクトリデータベースにおけるクエリ述語として機能する。
そこで本研究では,TrajCLという学習に基づくトラジェクトリモデリング手法を提案する。
TrajCLは、最先端の軌跡類似度測定よりも一貫して、はるかに正確で高速である。
論文 参考訳(メタデータ) (2022-10-11T05:25:14Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。