論文の概要: Triviality Corrected Endogenous Reward
- arxiv url: http://arxiv.org/abs/2604.11522v1
- Date: Mon, 13 Apr 2026 14:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.600308
- Title: Triviality Corrected Endogenous Reward
- Title(参考訳): Triviality Corrected Endogenous Reward (特集 バイオサイバネティックスとバイオサイバネティックス)
- Authors: Xinda Wang, Zhengxu Hou, Yangshijie Zhang, Bingren Yan, Jialin Liu, Chenzhuo Zhao, Zhibo Yang, Bin-Bin Yang, Feng Xiao,
- Abstract要約: 本研究では,信頼に基づく内因性報酬がオープンな文章作成タスクに適応できるかどうかを検討する。
信頼の報酬を直接適用することで、トリビティバイアスが生まれることが分かっています。
本稿では,このバイアスに対処するために,専門家政策と一般参照政策の相対的な情報ゲインを報奨するTCERを提案する。
- 参考スコア(独自算出の注目度): 7.582697859109565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning for open-ended text generation is constrained by the lack of verifiable rewards, necessitating reliance on judge models that require either annotated data or powerful closed-source models. Inspired by recent work on unsupervised reinforcement learning for mathematical reasoning using confidence-based endogenous rewards, we investigate whether this principle can be adapted to open-ended writing tasks. We find that directly applying confidence rewards leads to Triviality Bias: the policy collapses toward high-probability outputs, reducing diversity and meaningful content. We propose TCER (Triviality Corrected Endogenous Reward), which addresses this bias by rewarding the relative information gain between a specialist policy and a generalist reference policy, modulated by a probability-dependent correction mechanism. Across multiple writing benchmarks and model architectures, TCER achieves consistent improvements without external supervision. Furthermore, TCER also transfers effectively to mathematical reasoning, validating the generality of our approach across different generation tasks.
- Abstract(参考訳): オープンエンドテキスト生成のための強化学習は、検証可能な報酬の欠如や、注釈付きデータや強力なクローズソースモデルを必要とする判断モデルへの依存の欠如によって制約される。
信頼性に基づく内因性報酬を用いた数学的推論のための教師なし強化学習の最近の研究から着想を得て,この原理がオープンな文章作成タスクに適応できるかどうかを考察した。
政策は高確率のアウトプットに向けて崩壊し、多様性と有意義なコンテンツを減らす。
本稿では,このバイアスに対処するTER(Triviality Corrected Endogenous Reward)を提案する。
複数のベンチマークやモデルアーキテクチャの他、TCERは外部の監視なしに一貫した改善を実現している。
さらに、TERは数学的推論に効果的に移行し、異なる世代タスクにおける我々のアプローチの一般性を検証する。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - From Faithfulness to Correctness: Generative Reward Models that Think Critically [40.07140704454647]
本稿では,批判的思考能力を持つ報酬モデルを実現するために,思考監督リワードモデル(TRM)を提案する。
問合せ、回答、支援文書が与えられたとき、TRMはまず各回答文の忠実さを支援文書に評価し、その後、文レベルの正しさを評価するための推論ステップを適用する。
論文 参考訳(メタデータ) (2025-09-29T19:06:56Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。