論文の概要: RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback
- arxiv url: http://arxiv.org/abs/2603.08561v2
- Date: Wed, 11 Mar 2026 12:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.162606
- Title: RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback
- Title(参考訳): RetroAgent: Retrospective Dual Intrinsic Feedbackによる解決から進化へ
- Authors: Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao,
- Abstract要約: 強化学習(RL)で訓練されたLarge Language Model (LLM)ベースのエージェントは、複雑な対話的タスクに強い可能性を示している。
我々はRetroAgentを紹介します。RetroAgentは、エージェントが問題解決だけでなく、進化によって複雑な対話環境をマスターすることを可能にするオンラインRLフレームワークです。
- 参考スコア(独自算出の注目度): 54.39884046754265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based agents trained with reinforcement learning (RL) have shown strong potential on complex interactive tasks. However, standard RL paradigms favor static problem-solving over continuous adaptation: agents often converge to suboptimal strategies due to insufficient exploration, while learned knowledge remains implicit within parameters rather than explicitly retrievable, limiting effective experiential learning. To address these limitations, we introduce RetroAgent, an online RL framework that empowers agents to master complex interactive environments not just by solving, but by evolving. Concretely, RetroAgent features a hindsight self-reflection mechanism that produces dual intrinsic feedback: (1) intrinsic numerical feedback that that tracks incremental subtask completion relative to prior attempts, rewarding promising explorations, and (2) intrinsic language feedback that distills reusable lessons into a memory buffer, retrieved via our proposed Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB) strategy balancing relevance, utility, and exploration to effectively leverage past experiences. Extensive experiments on two model families across four challenging agentic tasks demonstrate that RetroAgent significantly outperforms existing methods, achieving state-of-the-art results -- e.g., surpassing Group Relative Policy Optimization (GRPO)-trained agents by +18.3% on ALFWorld, +15.4% on WebShop, +27.1% on Sokoban, and +8.9% on MineSweeper -- while exhibiting strong test-time adaptation and generalization to out-of-distribution scenarios.
- Abstract(参考訳): 強化学習(RL)で訓練されたLarge Language Model (LLM)ベースのエージェントは、複雑な対話的タスクに強い可能性を示している。
しかし、標準的なRLパラダイムは、継続的な適応よりも静的な問題解決を好んでおり、エージェントは探索が不十分なため最適以下の戦略に収束することが多い。
この制限に対処するために、RetroAgentというオンラインのRLフレームワークを紹介します。
具体的には、RetroAgentは2つの内在的フィードバックを生成する後向きの自己回帰機構を備えており、(1) 従来の試みと比較してインクリメンタルなサブタスク完了を追跡する内在的な数値フィードバック、(2) 再利用可能なレッスンをメモリバッファに蒸留する内在的な言語フィードバックは、我々の提案したSimisity & Utility-Aware upper Confidence Bound (SimUtil-UCB) 戦略と妥当性、有用性、そして過去の経験を効果的に活用するための探索である。
4つの挑戦的なエージェントタスクにわたる2つのモデルファミリーに関する大規模な実験は、RetroAgentが既存のメソッドを大幅に上回り、最先端の結果 -- 例えば、グループ相対ポリシー最適化(GRPO)のトレーニングされたエージェントを+18.3%上回り、WebShopが+15.4%、Sokobanが+27.1%、MineSweeperが+8.9%上回る。
関連論文リスト
- RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization [29.421185758698908]
エージェント強化学習(Agentic RL)は,大規模言語モデルベース(LLM)エージェントにおいて顕著な可能性を示している。
本稿では、学習中の探索を明示的に拡張する検索を導入した新しいRLフレームワークである検索型ポリシー最適化(RAPO)を提案する。
RAPOは、3つのエージェント推論タスクにわたる14のデータセットの平均ゲインを+5.0%達成し、トレーニング効率は1.2倍向上した。
論文 参考訳(メタデータ) (2026-03-03T15:23:42Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search [70.63903518295785]
モンテカルロ木探索によるエージェント強化学習フレームワークRepoSearch-R1を紹介する。
RepoSearch-R1に基づいて,リポジトリ質問応答タスク用に設計されたRepoQA-Agentを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:10:36Z) - mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [15.991125806837386]
LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。
Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-29T23:32:03Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。