論文の概要: Co-Evolving Agents: Learning from Failures as Hard Negatives
- arxiv url: http://arxiv.org/abs/2511.22254v1
- Date: Thu, 27 Nov 2025 09:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.482135
- Title: Co-Evolving Agents: Learning from Failures as Hard Negatives
- Title(参考訳): 共同進化型エージェント: 失敗からハードネガティクスを学ぶ
- Authors: Yeonsung Jung, Trilok Padhi, Sina Shaham, Dipika Khullar, Joonhyun Jeong, Ninareh Mehrabi, Eunho Yang,
- Abstract要約: 近年の研究では、自己改善剤を自力で生成し、精製し、自身の軌道で再訓練する研究が進められている。
本稿では、目標エージェントが補助故障エージェントと共同で改善する共進化型エージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.61683607205988
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid progress of large foundation models has accelerated the development of task-specialized agents across diverse domains. However, the effectiveness of agents remains tightly coupled with the quality of training data, while curating task-specific datasets remains costly and often infeasible in real-world scenarios. Recent work has explored self-improving agents that autonomously generate, refine, and re-train on their own trajectories. A prominent line of approaches further leverages preference optimization by pairing predicted trajectories with scarce ground-truth trajectories, enabling agents to learn directly from their own failures. While these methods outperform supervised fine-tuning, their heavy reliance on predicted trajectories under limited ground-truth supervision leaves them prone to overfitting. To address this, we propose a co-evolving agents framework in which a target agent improves jointly with an auxiliary failure agent. The failure agent learns through preference optimization over failure trajectories from both the target and itself, thereby generating hard negatives that are close to success yet remain failures. Incorporating these informative hard negatives into the target agent's optimization sharpens decision boundaries and enhances generalization. Our comprehensive analysis and experiments across benchmark datasets show that our method not only shows improved performance but also demonstrates that failures, instead of being used as-is, can be systematically transformed into structured and valuable learning signals in self-improving agents.
- Abstract(参考訳): 大規模基盤モデルの急速な進歩は、様々な領域にわたるタスク特化エージェントの開発を加速させてきた。
しかし、エージェントの有効性はトレーニングデータの品質と密結合であり、一方タスク固有のデータセットのキュレーションは、現実のシナリオではコストがかかり、しばしば実現不可能である。
近年の研究では、自己改善剤を自力で生成し、精製し、自身の軌道で再訓練する研究が進められている。
顕著なアプローチのラインは、予測されたトラジェクトリと少ない接地トラジェクトリとをペアにすることで、好みの最適化をさらに活用することで、エージェントは自身の障害から直接学習することができる。
これらの手法は監督された微調整よりも優れているが、限られた地道監督の下で予測された軌道に依存しているため、過度に適合する傾向にある。
そこで本研究では,目標エージェントが補助的障害エージェントと協調的に改善する,共進化型エージェントフレームワークを提案する。
障害エージェントは、目標とそれ自身の両方からの障害軌跡よりも優先的な最適化を通じて学習し、成功に近づきながら失敗を継続するハードネガティブを生成する。
これらの情報的ハードネガティブを対象エージェントの最適化に組み込むことで、決定境界を鋭くし、一般化を高める。
ベンチマークデータセットの総合的な分析と実験により,我々の手法は性能の向上を示すだけでなく,自己改善エージェントにおいて,失敗を体系的に構造化し,価値ある学習信号に変換できることが示されている。
関連論文リスト
- Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (2025-04-17T17:53:54Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。
これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。
これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文 参考訳(メタデータ) (2024-02-18T17:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。