Fugu-MT 論文翻訳(概要): STeCa: Step-level Trajectory Calibration for LLM Agent Learning

論文の概要: STeCa: Step-level Trajectory Calibration for LLM Agent Learning

arxiv url: http://arxiv.org/abs/2502.14276v1
Date: Thu, 20 Feb 2025 05:28:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.526959
Title: STeCa: Step-level Trajectory Calibration for LLM Agent Learning
Title（参考訳）: STeCa:LLMエージェント学習のためのステップレベルの軌道校正
Authors: Hanlin Wang, Jian Wang, Chak Tou Leong, Wenjie Li,
Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。 LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory (STeCa)を提案する。
参考スコア（独自算出の注目度）: 9.678098205818566
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM)-based agents have shown promise in tackling complex tasks by interacting dynamically with the environment. Existing work primarily focuses on behavior cloning from expert demonstrations and preference learning through exploratory trajectory sampling. However, these methods often struggle in long-horizon tasks, where suboptimal actions accumulate step by step, causing agents to deviate from correct task trajectories. To address this, we highlight the importance of timely calibration and the need to automatically construct calibration trajectories for training agents. We propose Step-Level Trajectory Calibration (STeCa), a novel framework for LLM agent learning. Specifically, STeCa identifies suboptimal actions through a step-level reward comparison during exploration. It constructs calibrated trajectories using LLM-driven reflection, enabling agents to learn from improved decision-making processes. These calibrated trajectories, together with successful trajectory data, are utilized for reinforced training. Extensive experiments demonstrate that STeCa significantly outperforms existing methods. Further analysis highlights that step-level calibration enables agents to complete tasks with greater robustness. Our code and data are available at https://github.com/WangHanLinHenry/STeCa.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。既存の研究は主に、専門家によるデモンストレーションからの行動クローニングと、探索軌道サンプリングによる嗜好学習に焦点を当てている。しかしながら、これらの手法は、最適な行動が段階的に蓄積される長期的タスクでしばしば苦労し、エージェントは正しいタスク軌跡から逸脱する。そこで我々は,時間的キャリブレーションの重要性と,トレーニングエージェントのキャリブレーション・トラジェクトリを自動構築する必要性を強調した。 LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory Calibration (STeCa)を提案する。特にSTeCaは、探索中のステップレベルの報酬比較を通じて、最適以下の行動を特定する。 LLMリフレクションを用いて校正軌道を構築することで、エージェントはより良い意思決定プロセスから学習することができる。これらのキャリブレーションされた軌道は、軌道データとともに強化訓練に使用される。大規模な実験により、STeCaは既存の方法よりも著しく優れていることが示された。さらに分析によると、ステップレベルのキャリブレーションにより、エージェントはより堅牢なタスクを完了できる。私たちのコードとデータはhttps://github.com/WangHanLinHenry/STeCaで公開されています。

関連論文リスト

LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。 LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文参考訳（メタデータ） (2025-05-28T04:30:51Z)
Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。 API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文参考訳（メタデータ） (2024-11-29T08:47:04Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文参考訳（メタデータ） (2024-02-18T17:10:07Z)
Contrastive Trajectory Similarity Learning with Dual-Feature Attention [24.445998309807965]
トレイ類似度尺度は、トラジェクトリデータベースにおけるクエリ述語として機能する。そこで本研究では,TrajCLという学習に基づくトラジェクトリモデリング手法を提案する。 TrajCLは、最先端の軌跡類似度測定よりも一貫して、はるかに正確で高速である。
論文参考訳（メタデータ） (2022-10-11T05:25:14Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。