論文の概要: What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents
- arxiv url: http://arxiv.org/abs/2605.19447v1
- Date: Tue, 19 May 2026 07:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.175513
- Title: What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents
- Title(参考訳): 何といつ蒸留するか:多孔質剤の選択的近視用蒸留法
- Authors: Xiaozhe Li, Tianyi Lyu, Yang Li, Yichuan Ma, Peiji Li, Linyang Li, Qipeng Guo, Dahua Lin, Kai Chen,
- Abstract要約: 強化学習は、緩やかなタスク報酬からLLMエージェントを訓練することができるが、長期的なクレジット割り当ては依然として困難である。
既存の方法は、ステップごとの環境フィードバックを完全に活用することなく、軌道レベルの報酬やプロキシ信号に依存している。
環境重み付け学習フレームワークであるSERLを紹介する。
- 参考スコア(独自算出の注目度): 70.6980022118038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning can train LLM agents from sparse task rewards, but long-horizon credit assignment remains challenging: a single success-or-failure signal must be distributed across many actions. Existing methods rely on trajectory-level rewards or proxy signals, without fully leveraging per-step environmental feedback. Multi-turn agent settings are underexplored, where feedback can include error messages, page changes, observations, or reference trajectories. We systematically study five feedback sources and two insertion granularities and introduce SERL, a selective environment-reweighted learning framework. SERL uses the task reward to determine update direction, while environment feedback adjusts placement and magnitude, focusing on critical actions. On ALFWorld and WebShop, SERL achieves 90.0% and 80.1% success, outperforming strong RL and distillation baselines. Analysis shows that grounded, action-relevant feedback at meaningful points consistently outperforms indiscriminate use of longer or richer context.
- Abstract(参考訳): 強化学習は、緩やかなタスク報酬からLLMエージェントを訓練することができるが、長距離クレジットの割り当ては困難なままである。
既存の方法は、ステップごとの環境フィードバックを完全に活用することなく、軌道レベルの報酬やプロキシ信号に依存している。
マルチターンエージェント設定は、エラーメッセージ、ページの変更、観察、参照トラジェクトリを含むことができる。
5つのフィードバック源と2つの挿入粒度を体系的に研究し、選択的な環境重み付け学習フレームワークであるSERLを導入する。
SERLはタスク報酬を使用して更新方向を決定する一方、環境フィードバックは配置と大きさを調整し、重要なアクションにフォーカスする。
ALFWorldとWebShopでは、SERLは90.0%と80.1%の成功を達成し、強いRLと蒸留ベースラインを上回っている。
分析によると、意味のある点における行動関連フィードバックは、より長いコンテキストやよりリッチなコンテキストの無差別な使用よりも一貫して優れている。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。
挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-30T17:00:48Z) - SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution [9.181156720071547]
強化学習は、複雑な目標志向のタスクを扱うためのトレーニングエージェントの約束である。
フィードバック信号は通常、タスク全体が完了した後でのみ利用可能である。
我々は、最終報酬を段階的な貢献に分解するステップワイドプログレス属性を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:21:04Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。