Fugu-MT 論文翻訳(概要): What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

論文の概要: What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

arxiv url: http://arxiv.org/abs/2603.19880v1
Date: Fri, 20 Mar 2026 11:47:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:39.127367
Title: What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time
Title（参考訳）: 合意が嘘をついたら? テスト時間における選択的補完的強化学習
Authors: Dong Yan, Jian Liang, Yanbo Wang, Shuo Lu, Ran He, Tieniu Tan,
Abstract要約: TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
参考スコア（独自算出の注目度）: 57.533031432715084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-Time Reinforcement Learning (TTRL) enables Large Language Models (LLMs) to enhance reasoning capabilities on unlabeled test streams by deriving pseudo-rewards from majority voting consensus. However, existing TTRL methods rely exclusively on positive pseudo-labeling strategies. Such reliance becomes vulnerable under challenging scenarios where answer distributions are highly dispersed, resulting in weak consensus that inadvertently reinforces incorrect trajectories as supervision signals. In this paper, we propose SCRL (Selective-Complementary Reinforcement Learning), a robust test-time reinforcement learning framework that effectively mitigates label noise amplification. SCRL develops Selective Positive Pseudo-Labeling, which enforces strict consensus criteria to filter unreliable majorities. Complementarily, SCRL introduces Entropy-Gated Negative Pseudo-Labeling, the first negative supervision mechanism in TTRL, to reliably prune incorrect trajectories based on generation uncertainty. Extensive experiments on multiple reasoning benchmarks demonstrate that SCRL achieves substantial improvements over baselines, while maintaining robust generalization and training stability under constrained rollout budgets. Our code is available at https://github.com/Jasper-Yan/SCRL.
Abstract（参考訳）: TTRL(Test-Time Reinforcement Learning)は、大規模な言語モデル(LLM)が、多数決のコンセンサスから擬似回帰を導出することにより、ラベルのないテストストリームの推論能力を向上することを可能にする。しかし、既存のTTRL法は正の擬似ラベル戦略にのみ依存している。このような信頼は、解答分布が高度に分散している難解なシナリオにおいて脆弱になり、不注意にも誤った軌道を監督信号として補強する弱いコンセンサスをもたらす。本稿では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRL(Selective-Complementary Reinforcement Learning)を提案する。 SCRLはSelective Positive Pseudo-Labelingを開発した。相補的に、SCRLは、TTRLの最初の負の監督機構であるエントロピーゲート負の擬似ラベルを導入し、生成の不確実性に基づいて不正確な軌道を確実に創出する。複数の推論ベンチマークに関する大規模な実験により、SCRLは、制約付きロールアウト予算下での堅牢な一般化とトレーニング安定性を維持しながら、ベースラインよりも大幅に改善されていることが示されている。私たちのコードはhttps://github.com/Jasper-Yan/SCRL.comで公開されています。

関連論文リスト

From the Inside Out: Progressive Distribution Refinement for Confidence Calibration [11.940520783793337]
強化学習(RL)において、モデルの内部情報を自己回帰信号として活用することは、ラベルのない性質のために広く注目を集めている。本稿では、RLにおけるモデルの信頼度に先立って分布を利用して報酬信号を段階的に最適化するDistriTTRLを提案する。我々は、多様性を目標とした罰則を通じて、投票ベースのTS戦略による一貫した報酬ハッキングの現象を緩和する。
論文参考訳（メタデータ） (2026-03-17T13:26:29Z)
Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文参考訳（メタデータ） (2026-02-13T02:13:45Z)
Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文参考訳（メタデータ） (2026-01-31T10:02:43Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文参考訳（メタデータ） (2025-10-20T07:53:51Z)
ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文参考訳（メタデータ） (2025-10-07T15:54:24Z)
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:17:40Z)
Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文参考訳（メタデータ） (2021-11-05T12:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。