論文の概要: AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling
- arxiv url: http://arxiv.org/abs/2603.21357v1
- Date: Sun, 22 Mar 2026 18:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.376319
- Title: AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling
- Title(参考訳): AgentHER: LLM Agent Trajectory RelabelingのHindsight Experience Replay
- Authors: Liang Ding,
- Abstract要約: AgentHERは、自然言語エージェントトラジェクトリにHindsight Experience原則を適用することで、失われたトレーニング信号を回復する。
破棄された障害を高品質のSFT、DPO、ShareGPTトレーニングデータに変換する。
WebArena Replay (Zhou et al., 2024)とToolBench (Qin et al., 2024)では、AgentHERは4つのモデルファミリーで成功のみのSFTを+7.1-11.7ppで改善している。
- 参考スコア(独自算出の注目度): 12.42698406379544
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: LLM agents fail on the majority of real-world tasks -- GPT-4o succeeds on fewer than 15% of WebArena navigation tasks and below 55% pass@1 on ToolBench (Zhou et al., 2024; Qin et al., 2024) -- yet every failed trajectory is routinely discarded, wasting the dominant source of collected experience. We introduce AgentHER, a framework that recovers this lost training signal by adapting the Hindsight Experience Replay (HER; Andrychowicz et al., 2017) principle to natural-language agent trajectories for offline data augmentation. The key insight is simple: a trajectory that fails goal A is often a correct demonstration for some achievable alternative goal B. AgentHER realises this idea through a four-stage pipeline -- failure classification, outcome extraction, LLM-guided prompt relabeling with confidence gating, and data packaging -- that converts discarded failures into high-quality SFT, DPO, and ShareGPT training data, with both zero-cost rule-based and LLM-judge implementations. On WebArena (Zhou et al., 2024) and ToolBench (Qin et al., 2024), AgentHER improves over success-only SFT by +7.1-11.7 pp across four model families (GPT-4o, Qwen2.5-72B/7B, LLaMA-3.1-8B), while achieving 2x data efficiency -- matching baseline performance with only 50% of successful demonstrations. Gains are consistent from 1.5B to 72B parameters (+5.8-9.2 pp) and compound under iterative redeployment (+2.1 pp over additional rounds). Human evaluation confirms 97.7% relabeling precision under multi-judge verification.
- Abstract(参考訳): LLMエージェントは現実世界のタスクの大部分で失敗する -- GPT-4oはWebArenaナビゲーションタスクの15%未満で成功し、ToolBench(Zhou et al , 2024; Qin et al , 2024)で55%のpass@1以下である。
我々は、HER(Hindsight Experience Replay)の原則を、オフラインデータ拡張のための自然言語エージェントトラジェクトリに適用することで、この失われたトレーニング信号を回復するフレームワークであるAgentHERを紹介する。
AgentHERは、4段階のパイプライン – 障害分類、結果抽出、信頼性向上によるLLM誘導プロンプトレザベリング、データパッケージング -- を通じてこのアイデアを実現し、破棄された障害を高品質なSFT、DPO、ShareGPTトレーニングデータに変換する。
WebArena(Zhou et al , 2024)とToolBench(Qin et al , 2024)では、AgentHERは4つのモデルファミリ(GPT-4o, Qwen2.5-72B/7B, LLaMA-3.1-8B)で成功のみのSFTを+7.1-11.7ppで改善し、2倍のデータ効率を実現した。
利得は1.5Bから72Bパラメータ(+5.8-9.2pp)と一致しており、反復的再デプロイ(+2.1pp)の下での化合物である。
人的評価は、マルチジャッジ検証の精度を97.7%向上させる。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文 参考訳(メタデータ) (2025-09-03T13:42:14Z) - VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。
VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-08-01T14:22:54Z) - Efficient Online RFT with Plug-and-Play LLM Judges: Unlocking State-of-the-Art Performance [0.0]
リワードモデルトレーニングは、現代の強化学習ヒューマンフィードバック(RLHF)パイプラインのコストボトルネックである。
提案手法では, 冷凍型7B LLMを1行とランク16のLORAアダプタで拡張する。
プラグ・アンド・プレイの審査員96.2%はRewardBenchの精度を達成し、27Bから70Bパラメータの特殊報酬ネットワークを上回っている。
論文 参考訳(メタデータ) (2025-06-06T05:18:54Z) - Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (2025-04-17T17:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。