論文の概要: Intrinsic Credit Assignment for Long Horizon Interaction
- arxiv url: http://arxiv.org/abs/2602.12342v1
- Date: Thu, 12 Feb 2026 19:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.724266
- Title: Intrinsic Credit Assignment for Long Horizon Interaction
- Title(参考訳): 長期水平相互作用のための固有のクレジットアサインメント
- Authors: Ilze Amanda Auzina, Joschka Strüber, Sergio Hernández-Gutiérrez, Shashwat Goel, Ameya Prabhu, Matthias Bethge,
- Abstract要約: Belief-RLは、強化学習における純粋に結果に基づく報酬を一貫して上回る情報探索能力を教える。
我々の研究は、本質的な信念の報酬を通じて中間行動にクレジットを割り当てることによって、長期にわたる不確実性をナビゲートするためのスケーラブルなトレーニング戦略を導入している。
- 参考スコア(独自算出の注目度): 20.67253382614053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we train agents to navigate uncertainty over long horizons? In this work, we propose ΔBelief-RL, which leverages a language model's own intrinsic beliefs to reward intermediate progress. Our method utilizes the change in the probability an agent assigns to the target solution for credit assignment. By training on synthetic interaction data, ΔBelief-RL teaches information-seeking capabilities that consistently outperform purely outcome-based rewards for Reinforcement Learning, with improvements generalizing to out-of-distribution applications ranging from customer service to personalization. Notably, the performance continues to improve as we scale test-time interactions beyond the training horizon, with interaction-efficiency increasing even on Pass@k metrics. Overall, our work introduces a scalable training strategy for navigating uncertainty over a long-horizon, by enabling credit assignment to intermediate actions via intrinsic ΔBelief rewards.
- Abstract(参考訳): 長い地平線上で不確実性をナビゲートするために、エージェントをどうやって訓練できるのか?
本研究では,言語モデル固有の信念を活用するΔBelief-RLを提案する。
提案手法では,エージェントがターゲットのソリューションに割り当てる確率の変化を利用してクレジットを割り当てる。
ΔBelief-RLは、総合的なインタラクションデータに基づくトレーニングにより、顧客サービスからパーソナライズに至るまでのアウト・オブ・ディストリビューション・アプリケーションに一般化された、強化学習における純粋に結果に基づく報酬を一貫して上回る情報検索能力を教える。
特に、トレーニングの地平線を越えてテスト時のインタラクションをスケールするにつれてパフォーマンスが向上し続けており、Pass@kメトリクスでもインタラクション効率が向上しています。
全体として、本研究は、内在的なΔBelief報酬を通じて中間行動への信用割当を可能にすることによって、長期にわたる不確実性をナビゲートするためのスケーラブルなトレーニング戦略を導入している。
関連論文リスト
- Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction [14.099864893966377]
強化学習後、コヒーレンスに基づく報酬を利用して出力の多様性を低下させる。
この崩壊は、音楽的創造性は動的変動と相互応答性に依存するライブジャミングにおいて特に有害である。
メロディと和音の伴奏のためのRLポストトレーニングにおける報酬ハッキングを軽減するために,ポリシー生成トラジェクトリに対する新たな逆行訓練手法を提案する。
論文 参考訳(メタデータ) (2025-11-22T02:12:41Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Targeted Data Acquisition for Evolving Negotiation Agents [6.953246373478702]
成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-14T19:45:59Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。