論文の概要: Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.15146v1
- Date: Wed, 17 Dec 2025 07:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.886214
- Title: Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning
- Title(参考訳): 多数投票を超えて:テスト時間強化学習のための微細で信頼性の高いリワード信号を目指して
- Authors: Weiqin Wang, Yile Wang, Kehao Chen, Hui Huang,
- Abstract要約: テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を軽減する。
この投票戦略は、しばしば確認バイアスを引き起こし、スパース報酬に悩まされ、全体的なパフォーマンスが制限される。
これらの問題に対処するために,サブグループ固有のステップワイド信頼度重み付き擬似ラベル推定(SCOPE)を提案する。
- 参考スコア(独自算出の注目度): 12.354777054071379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time reinforcement learning mitigates the reliance on annotated data by using majority voting results as pseudo-labels, emerging as a complementary direction to reinforcement learning with verifiable rewards (RLVR) for improving reasoning ability of large language models (LLMs). However, this voting strategy often induces confirmation bias and suffers from sparse rewards, limiting the overall performance. In this work, we propose subgroup-specific step-wise confidence-weighted pseudo-label estimation (SCOPE), a framework integrating model confidence and dynamic subgroup partitioning to address these issues. Specifically, SCOPE integrates the proposed step-wise confidence into pseudo label deduction, prioritizing high-quality reasoning paths over simple frequency count. Furthermore, it dynamically partitions the candidate outputs pool into independent subgroups by balancing reasoning quality against exploration diversity. By deriving local consensus via repeat sampling for each sub group, SCOPE provides diverse supervision targets to encourage broader exploration. We conduct experiments across various models and benchmarks, experimental results show that SCOPE consistently outperforms recent baselines. Notably, SCOPE achieving relative improvements of 13.1\% on challenging AIME 2025 and 8.1\% on AMC. The code is released at \href{https://github.com/szu-tera/SCOPE}{https://github.com/szu-tera/SCOPE}.
- Abstract(参考訳): テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を緩和し、大規模言語モデル(LLM)の推論能力を向上させるための検証可能な報酬付き強化学習(RLVR)に相補的な方向として現れる。
しかしながら、この投票戦略は、しばしば確認バイアスを誘発し、全体のパフォーマンスを制限し、まばらな報酬に苦しむ。
本研究では,モデル信頼度と動的サブグループ分割を統合化してこれらの問題に対処するフレームワークであるSCOPE(subgroup-wise confidence-weighted pseudo-label Estimation)を提案する。
具体的には、SCOPEは、提案したステップワイズ信頼度を擬似ラベル推論に統合し、単純な周波数数よりも高品質な推論経路を優先する。
さらに、探索の多様性に対する推論品質のバランスをとることにより、候補の出力プールを独立サブグループに動的に分割する。
各サブグループの反復サンプリングを通じて局所的なコンセンサスを導出することにより、SCOPEは幅広い探索を促進するために多様な監視対象を提供する。
我々は様々なモデルやベンチマークで実験を行い、SCOPEが最近のベースラインを一貫して上回っていることを示す実験結果を得た。
特にSCOPE は AIME 2025 の挑戦に対して 13.1 % と AMC の 8.1 % の相対的な改善を達成している。
コードは \href{https://github.com/szu-tera/SCOPE}{https://github.com/szu-tera/SCOPE} で公開されている。
関連論文リスト
- ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [61.45587642780908]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。