論文の概要: Intrinsic Credit Assignment for Long Horizon Interaction
- arxiv url: http://arxiv.org/abs/2602.12342v1
- Date: Thu, 12 Feb 2026 19:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.724266
- Title: Intrinsic Credit Assignment for Long Horizon Interaction
- Title(参考訳): 長期水平相互作用のための固有のクレジットアサインメント
- Authors: Ilze Amanda Auzina, Joschka Strüber, Sergio Hernández-Gutiérrez, Shashwat Goel, Ameya Prabhu, Matthias Bethge,
- Abstract要約: Belief-RLは、強化学習における純粋に結果に基づく報酬を一貫して上回る情報探索能力を教える。
我々の研究は、本質的な信念の報酬を通じて中間行動にクレジットを割り当てることによって、長期にわたる不確実性をナビゲートするためのスケーラブルなトレーニング戦略を導入している。
- 参考スコア(独自算出の注目度): 20.67253382614053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we train agents to navigate uncertainty over long horizons? In this work, we propose ΔBelief-RL, which leverages a language model's own intrinsic beliefs to reward intermediate progress. Our method utilizes the change in the probability an agent assigns to the target solution for credit assignment. By training on synthetic interaction data, ΔBelief-RL teaches information-seeking capabilities that consistently outperform purely outcome-based rewards for Reinforcement Learning, with improvements generalizing to out-of-distribution applications ranging from customer service to personalization. Notably, the performance continues to improve as we scale test-time interactions beyond the training horizon, with interaction-efficiency increasing even on Pass@k metrics. Overall, our work introduces a scalable training strategy for navigating uncertainty over a long-horizon, by enabling credit assignment to intermediate actions via intrinsic ΔBelief rewards.
- Abstract(参考訳): 長い地平線上で不確実性をナビゲートするために、エージェントをどうやって訓練できるのか?
本研究では,言語モデル固有の信念を活用するΔBelief-RLを提案する。
提案手法では,エージェントがターゲットのソリューションに割り当てる確率の変化を利用してクレジットを割り当てる。
ΔBelief-RLは、総合的なインタラクションデータに基づくトレーニングにより、顧客サービスからパーソナライズに至るまでのアウト・オブ・ディストリビューション・アプリケーションに一般化された、強化学習における純粋に結果に基づく報酬を一貫して上回る情報検索能力を教える。
特に、トレーニングの地平線を越えてテスト時のインタラクションをスケールするにつれてパフォーマンスが向上し続けており、Pass@kメトリクスでもインタラクション効率が向上しています。
全体として、本研究は、内在的なΔBelief報酬を通じて中間行動への信用割当を可能にすることによって、長期にわたる不確実性をナビゲートするためのスケーラブルなトレーニング戦略を導入している。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。