論文の概要: HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents
- arxiv url: http://arxiv.org/abs/2605.17873v1
- Date: Mon, 18 May 2026 05:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.891752
- Title: HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents
- Title(参考訳): HINT-SD:ロングホライゾン剤の高感度自己蒸留
- Authors: Woongyeng Yeo, Yumin Choi, Taekyung Ki, Sung Ju Hwang,
- Abstract要約: 強化学習による長期LLMエージェントの訓練は、タスクが成功するか、どの中間動作が結果を引き起こしたのか、どのように修正されるべきなのかを明らかにするため、困難である。
近年の手法では、ターンレベルのアクション出力信号から報酬やテキストヒントを生成したり、あるいはフィードバック条件の自己蒸留を用いてこの問題を緩和している。
本研究では,HINT-SDを提案する。HINT-SDは,フルトラジェクティブ・ヒンドシット(Hndsight)を用いて,障害関連アクションを選択し,目標アクションスパンのみにフィードバック条件付き蒸留を適用する。
- 参考スコア(独自算出の注目度): 45.00250014235802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26$\times$ lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.
- Abstract(参考訳): 強化学習による長期LLMエージェントの訓練は、タスクが成功するか、どの中間動作が結果を引き起こしたのか、どのように修正されるべきなのかを明らかにするため、困難である。
近年の手法では、ターンレベルのアクション出力信号から報酬やテキストヒントを生成したり、あるいはフィードバック条件の自己蒸留を用いてこの問題を緩和している。
しかし、多くの中間旋回がすでに成功したり中立であったりした場合、各ターンでフィードバックを生成することは非効率であり、固定あるいは不正な旋回でフィードバックを適用すると、失敗に繋がったアクションを監督することができないことが多い。
このギャップを埋めるため,HINT-SDを提案する。HINT-SDは,フルトラジェクティブ・ヒンズシット(Hndsight)を用いて障害関連アクションを選択し,目標アクションスパンのみにフィードバック条件付き蒸留を適用する。
BFCL v3 と AppWorld の実験により,本手法は高密度ターン毎のフィードバックベースラインを最大 18.80% 改善し,トレーニング段階あたり2.26$\times$low time を実現した。
関連論文リスト
- Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation [71.16738415436458]
本稿では、生の障害フィードバックを補正管理のアクティブソースに変換するフレームワークであるReflection-Enhanced Self-Distillation(RESD)を紹介する。
RESDは、局所的なエラーを診断するために振り返りリフレクションを生成し、持続的なグローバルなプレイブックをキュレートすることで、障害の軌跡を解釈する。
複数の連続学習課題に対する実証的な評価は、RESDが標準の自己蒸留ベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-12T20:46:05Z) - RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models [90.39703013636868]
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。
成功、回復、失敗の軌跡に異なる役割を割り当てる。
対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
論文 参考訳(メタデータ) (2026-05-10T08:24:05Z) - Not All Turns Matter: Credit Assignment for Multi-Turn Jailbreaking [39.11709072420052]
我々は、強化学習に基づくマルチターンジェイルブレイクのためのターンアウェア・クレジット・アサインメント・フレームワークであるTRACEを提案する。
トラジェクトリが成功するためには、TRACEはLeft-one-turn-outセマンティックマスクを通じてターンレベルのコントリビューションを見積もる。
失敗した場合、TRACEは迅速な有害性と意味的関連性に基づいて罰則を割り当てる。
論文 参考訳(メタデータ) (2026-05-09T08:07:30Z) - HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation [2.9231828959903474]
VLA(Vision-Language-Action)モデルは、短軸性能が強いにもかかわらず、長軸操作タスクにおいて体系的に失敗する。
この失敗は、現在のリアクティブ実行設定でコンテキスト長だけを拡張することで解決されないことを示す。
HELMは3つのコンポーネントでこれらの欠陥に対処するモデルに依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-04-20T19:57:35Z) - R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification [44.99719889905381]
強化学習は推論とエージェント能力の最近の進歩を促進するが、現在のアプローチは探索と搾取の両方で苦労している。
本稿では,R$3$L,Reflection-then-Retry Reinforcement Learning with Language-Guided Exploration,Pivotal Credit,Positive Amplificationを提案する。
エージェントおよび推論タスクの実験は、トレーニング安定性を維持しながら、ベースラインよりも5%から52%改善したことを示している。
論文 参考訳(メタデータ) (2026-01-07T09:04:52Z) - FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories [82.90132015584359]
ReFlowはフローマッチングと理論的に整合性があるが、現実的なシナリオでは最適ではない。
本研究では,ReFlowをベースとした蒸留手法であるFlowSteerを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:13:23Z) - Rethinking Reward Miscalibration of GRPO in Agentic RL [18.495499496405635]
結果に基づく報酬は、これらの欠陥のある中間ステップに対して期待される負の優位性を保証することを示す。
我々は,善悪行為の埋め込みを分離するために,善悪行為を分類するアクターの訓練を提案する。
論文 参考訳(メタデータ) (2025-09-28T13:24:38Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。