Fugu-MT 論文翻訳(概要): Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation

論文の概要: Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation

arxiv url: http://arxiv.org/abs/2604.11611v1
Date: Mon, 13 Apr 2026 15:18:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.643736
Title: Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation
Title（参考訳）: 相互情報自己評価による強化による隠れプロセスのリワードの活用と校正
Authors: Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo,
Abstract要約: 我々は、強化学習におけるスパース報酬課題を克服するために、相互情報自己評価を提案する。 MISEにより、エージェントは、疎外的信号を補う高密度な内部報酬から自律的に学習することができる。我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。
参考スコア（独自算出の注目度）: 50.696688705287755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To overcome the sparse reward challenge in reinforcement learning (RL) for agents based on large language models (LLMs), we propose Mutual Information Self-Evaluation (MISE), an RL paradigm that utilizes hindsight generative self-evaluation as dense reward signals while simultaneously calibrating them against the environmental feedbacks. Empirically, MISE enables an agent to learn autonomously from dense internal rewards supplementing sparse extrinsic signals. Theoretically, our work provides the first formal foundation for the paradigm of generative self-rewarding. We prove that utilizing hindsight self-evaluation rewards is equivalent to minimizing an objective that combines mutual information with a KL divergence term between the policy and a proxy reward policy. This theoretical insight then informs and justifies our calibration step, which actively aligns these rewards with the optimal policy. Extensive experiments show that MISE outperforms strong baselines, enabling open-source LLMs about 7B parameters to achieve performance comparable to GPT-4o on validation without expert supervision.
Abstract（参考訳）: 大規模言語モデル(LLM)に基づくエージェントに対する強化学習(RL)におけるスパース報酬の課題を克服するため、環境フィードバックに対して同時に調整しながら、後向きの自己評価を高密度報酬信号として利用するRLパラダイムであるMultual Information Self-Evaluation(MISE)を提案する。経験的に、MISEは、エージェントがスパース外部シグナルを補う密集した内部報酬から自律的に学習することを可能にする。理論的には、我々の研究は、生成的自己回帰のパラダイムのための最初の公式な基礎を提供する。我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。この理論的な洞察は、キャリブレーションのステップを通知し、正当化し、これらの報酬を最適なポリシーと積極的に整合させる。大規模な実験により、MISEは強力なベースラインよりも優れており、専門家の監督なしにGPT-4oに匹敵する性能を、約7BパラメータのオープンソースLLMで達成できることが示されている。

関連論文リスト

Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward [24.738836592075927]
本稿では, セマンティック情報獲得報酬による効果的な情報探索を動機付ける統合フレームワークを提案する。 7つの質問回答ベンチマークでの実験では、InfoReasonerは強力な検索強化ベースラインを一貫して上回っている。我々の研究は、理論的に基礎を置き、検索を伴うエージェント推論へのスケーラブルな道を提供する。
論文参考訳（メタデータ） (2026-01-31T18:15:50Z)
Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。 E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文参考訳（メタデータ） (2025-10-28T17:50:40Z)
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:32Z)
Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。 InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。 IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文参考訳（メタデータ） (2025-10-15T15:51:59Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。多くの実世界のシナリオでは、即時報酬信号の設計は困難である。本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文参考訳（メタデータ） (2024-02-06T07:26:44Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。