論文の概要: Dual Consensus: Escaping from Spurious Majority in Unsupervised RLVR via Two-Stage Vote Mechanism
- arxiv url: http://arxiv.org/abs/2603.16223v1
- Date: Tue, 17 Mar 2026 07:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.160691
- Title: Dual Consensus: Escaping from Spurious Majority in Unsupervised RLVR via Two-Stage Vote Mechanism
- Title(参考訳): デュアルコンセンサス:二段階投票機構による教師なしRLVRの純粋多数からの脱出
- Authors: Kaixuan Du, Meng Cao, Hang Zhang, Yukun Wang, Xiangzhou Huang, Ni Li,
- Abstract要約: 現在のRLVRアプローチは、正確な擬似ラベル推定に大きく依存している。
2段階のコンセンサス機構を用いて,より信頼性の高い学習信号を生成するDual Consensus Reinforcement Learningを提案する。
我々は、DCRLが多数決でPass@1を一貫して改善し、より安定したトレーニングダイナミクスが得られることを示した。
- 参考スコア(独自算出の注目度): 12.006669100411466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current label-free RLVR approaches for large language models (LLMs), such as TTRL and Self-reward, have demonstrated effectiveness in improving the performance of LLMs on complex reasoning tasks. However, these methods rely heavily on accurate pseudo-label estimation and converge on spurious yet popular answers, thereby trapping in a dominant mode and limiting further improvements. Building on this, we propose Dual Consensus Reinforcement Learning (DCRL), a novel self-supervised training method which is capable of generating more reliable learning signals through a two-stage consensus mechanism. The model initially acts as an anchor, producing dominant responses; then it serves as an explorer, generating diverse auxiliary signals via a temporary unlearning process. The final training target is derived from the harmonic mean of these two signal sets. Notably, the process operates entirely without external models or supervision. Across eight benchmarks and diverse domains, DCRL consistently improves Pass@1 over majority vote while yielding more stable training dynamics. These results demonstrate that DCRL establishes a scalable path toward stronger reasoning without labels.
- Abstract(参考訳): TTRLやSelf-Rewardのような大規模言語モデル(LLM)に対する現在のラベルなしRLVRアプローチは、複雑な推論タスクにおけるLLMの性能向上に有効であることを示した。
しかし、これらの手法は正確な擬似ラベル推定に大きく依存し、突発的だが人気がある回答に収束し、支配的なモードに閉じ込められ、さらなる改善が制限される。
そこで我々は,2段階のコンセンサス機構を用いて,より信頼性の高い学習信号を生成可能な,新たな自己教師型学習法であるDual Consensus Reinforcement Learning (DCRL)を提案する。
モデルは最初はアンカーとして機能し、主要な応答を生成し、その後エクスプローラーとして機能し、一時的な未学習プロセスを通じて多様な補助信号を生成する。
最後のトレーニングターゲットは、これらの2つの信号セットの調和平均から導かれる。
特に、プロセスは外部モデルや監督なしで完全に動作します。
8つのベンチマークとさまざまなドメインで、DCRLは多数決よりもPass@1を一貫して改善し、より安定したトレーニングダイナミックスを実現している。
これらの結果はDCRLがラベルなしでより強力な推論に向けてスケーラブルな経路を確立することを証明している。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Learning Self-Correction in Vision-Language Models via Rollout Augmentation [25.49118301476432]
視覚言語モデル(VLM)における推論問題の解決には自己補正が不可欠である
既存の強化学習法(RL)は、効果的な自己補正行動が稀に現れるため、学習に苦慮している。
本稿では,高密度自己補正例を合成するRLロールアウト拡張フレームワークOctopusを提案する。
我々は,制御可能な自己補正機能を備えた推論型VLMであるOctopus-8Bを紹介する。
論文 参考訳(メタデータ) (2026-02-09T10:55:13Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。