Fugu-MT 論文翻訳(概要): AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

論文の概要: AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

arxiv url: http://arxiv.org/abs/2603.21357v1
Date: Sun, 22 Mar 2026 18:36:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.376319
Title: AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling
Title（参考訳）: AgentHER: LLM Agent Trajectory RelabelingのHindsight Experience Replay
Authors: Liang Ding,
Abstract要約: AgentHERは、自然言語エージェントトラジェクトリにHindsight Experience原則を適用することで、失われたトレーニング信号を回復する。破棄された障害を高品質のSFT、DPO、ShareGPTトレーニングデータに変換する。 WebArena Replay (Zhou et al., 2024)とToolBench (Qin et al., 2024)では、AgentHERは4つのモデルファミリーで成功のみのSFTを+7.1-11.7ppで改善している。
参考スコア（独自算出の注目度）: 12.42698406379544
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: LLM agents fail on the majority of real-world tasks -- GPT-4o succeeds on fewer than 15% of WebArena navigation tasks and below 55% pass@1 on ToolBench (Zhou et al., 2024; Qin et al., 2024) -- yet every failed trajectory is routinely discarded, wasting the dominant source of collected experience. We introduce AgentHER, a framework that recovers this lost training signal by adapting the Hindsight Experience Replay (HER; Andrychowicz et al., 2017) principle to natural-language agent trajectories for offline data augmentation. The key insight is simple: a trajectory that fails goal A is often a correct demonstration for some achievable alternative goal B. AgentHER realises this idea through a four-stage pipeline -- failure classification, outcome extraction, LLM-guided prompt relabeling with confidence gating, and data packaging -- that converts discarded failures into high-quality SFT, DPO, and ShareGPT training data, with both zero-cost rule-based and LLM-judge implementations. On WebArena (Zhou et al., 2024) and ToolBench (Qin et al., 2024), AgentHER improves over success-only SFT by +7.1-11.7 pp across four model families (GPT-4o, Qwen2.5-72B/7B, LLaMA-3.1-8B), while achieving 2x data efficiency -- matching baseline performance with only 50% of successful demonstrations. Gains are consistent from 1.5B to 72B parameters (+5.8-9.2 pp) and compound under iterative redeployment (+2.1 pp over additional rounds). Human evaluation confirms 97.7% relabeling precision under multi-judge verification.
Abstract（参考訳）: LLMエージェントは現実世界のタスクの大部分で失敗する -- GPT-4oはWebArenaナビゲーションタスクの15%未満で成功し、ToolBench(Zhou et al , 2024; Qin et al , 2024)で55%のpass@1以下である。我々は、HER(Hindsight Experience Replay)の原則を、オフラインデータ拡張のための自然言語エージェントトラジェクトリに適用することで、この失われたトレーニング信号を回復するフレームワークであるAgentHERを紹介する。 AgentHERは、4段階のパイプライン – 障害分類、結果抽出、信頼性向上によるLLM誘導プロンプトレザベリング、データパッケージング -- を通じてこのアイデアを実現し、破棄された障害を高品質なSFT、DPO、ShareGPTトレーニングデータに変換する。 WebArena(Zhou et al , 2024)とToolBench(Qin et al , 2024)では、AgentHERは4つのモデルファミリ(GPT-4o, Qwen2.5-72B/7B, LLaMA-3.1-8B)で成功のみのSFTを+7.1-11.7ppで改善し、2倍のデータ効率を実現した。利得は1.5Bから72Bパラメータ(+5.8-9.2pp)と一致しており、反復的再デプロイ(+2.1pp)の下での化合物である。人的評価は、マルチジャッジ検証の精度を97.7%向上させる。

論文の概要: AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

関連論文リスト