論文の概要: Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents
- arxiv url: http://arxiv.org/abs/2605.20061v1
- Date: Tue, 19 May 2026 16:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.515196
- Title: Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents
- Title(参考訳): Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents
- Authors: Wenjie Tang, Minne Li, Sijie Huang, Liquan Xiao, Yuan Zhou,
- Abstract要約: 検証可能な報酬(RLVR)からの強化学習は、長期的対話的タスクにおいて、大規模言語モデル(LLM)エージェントを改善するための有望なパラダイムである。
本稿では,構造化信念状態を明示的にモデル化したプロセスレベル強化学習アルゴリズムReBel(Reward Belief)を提案する。
我々は、ALFWorldやWebShopといった長軸ベンチマークに挑戦する上で、ReBelを評価する。
- 参考スコア(独自算出の注目度): 5.917866758929418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) is a promising paradigm for improving large language model (LLM) agents on long-horizon interactive tasks. However, in partially observable environments, incomplete observations cause agent beliefs to drift over time, while delayed rewards obscure the causal impact of intermediate decisions, exacerbating temporal credit assignment challenges. To address this, we propose ReBel (Reward Belief), a process-level reinforcement learning algorithm that explicitly models structured belief states to summarize interaction history and guide subsequent policy learning. ReBel introduces belief-consistency supervision, converting discrepancies between predicted beliefs and observed feedback into dense self-supervised signals without requiring external step-wise annotations or verifiers. It also employs belief-aware grouping to compare trajectories under similar belief states, yielding more robust and lower-variance advantage estimates. We evaluate ReBel on challenging long-horizon benchmarks, including ALFWorld and WebShop. ReBel improves task success by up to $20.4$ percentage points over the episode-level baseline GRPO and increases sample efficiency by $2.1\times$. These results suggest that belief-aware self-supervision is a promising direction for reliable long-horizon decision-making under partial observability. Code is available at: https://github.com/Fateyetian/Rebel.git.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、長期的対話的タスクにおいて、大規模言語モデル(LLM)エージェントを改善するための有望なパラダイムである。
しかし、部分的に観察可能な環境では、不完全な観察によってエージェントの信念は時間の経過とともに漂流し、一方で遅延した報酬は中間決定の因果的影響を曖昧にし、時間的信用割り当ての課題を悪化させる。
そこで我々はReBel(Reward Belief)を提案する。ReBel(Reward Belief)はプロセスレベルの強化学習アルゴリズムで、構造化された信念状態を明確にモデル化し、相互作用履歴を要約し、その後の政策学習を導く。
ReBelは信念と一貫性の監視を導入し、予測された信念と観察されたフィードバックの間に不一致を変換し、外部のステップワイドアノテーションや検証を必要とせず、密集した自己管理信号に変換する。
また、同様の信念状態下での軌跡を比較するために、信念を意識したグループ化を採用し、より堅牢で低分散の有利な推定をもたらす。
我々は、ALFWorldやWebShopといった長軸ベンチマークに挑戦する上で、ReBelを評価する。
ReBelは、エピソードレベルのベースラインGRPOよりも最大20.4ドルのパーセンテージでタスクの成功を向上し、サンプル効率を2.1\times$に向上させる。
これらの結果は,信念を意識した自己超越が,部分的可観測性の下での信頼性の高い長期的意思決定に期待できる方向であることを示唆している。
コードは、https://github.com/Fateyetian/Rebel.git.comで入手できる。
関連論文リスト
- Verifiable Process Rewards for Agentic Reasoning [21.195739597726142]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を向上させる。
既存のアプローチのほとんどは、少ない結果レベルのフィードバックに依存しています。
本稿では,これらのオーラクルを強化学習のための高密度なターンレベルの監視に変換するフレームワークであるVerifiable Process Rewards (VPR)を提案する。
論文 参考訳(メタデータ) (2026-05-11T10:30:53Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - FaithRL: Learning to Reason Faithfully through Step-Level Faithfulness Maximization [35.23601691819328]
Reinforcement Learning with Verifiable Rewards (RLVR) は大規模言語モデル(LLM)の性能を大幅に向上させた。
ほとんどのRLVRパイプラインは、粗末な結果ベースの報酬に依存しており、中間ステップに対するほとんど監督を提供していない。
本稿では,信頼の推論を直接最適化する汎用強化学習フレームワークであるFaithRLを提案する。
論文 参考訳(メタデータ) (2026-02-03T13:28:17Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。