論文の概要: DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning
- arxiv url: http://arxiv.org/abs/2603.08095v1
- Date: Mon, 09 Mar 2026 08:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.708993
- Title: DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning
- Title(参考訳): DC-W2S:生物共振における信頼性プロセスリワードモデリングのためのデュアルコンセンサス弱ストロングトレーニング
- Authors: Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia,
- Abstract要約: 本稿では,多量だがノイズの多い「弱」監視を用いた信頼性PRMの訓練の課題について論じる。
既存の Weak-to-Strong Generalization theory には、ノイズの多いデータから高品質なトレーニング信号を選択するための規範的なガイドラインがない。
我々は、トレーニングプロセスの指針として、インスタンスレベルのバランスの取れたサンプリングとラベルレベルの信頼性を意識したマスキングのカリキュラムを採用している。
- 参考スコア(独自算出の注目度): 43.0861898113022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In scientific reasoning tasks, the veracity of the reasoning process is as critical as the final outcome. While Process Reward Models (PRMs) offer a solution to the coarse-grained supervision problems inherent in Outcome Reward Models (ORMs), their deployment is hindered by the prohibitive cost of obtaining expert-verified step-wise labels. This paper addresses the challenge of training reliable PRMs using abundant but noisy "weak" supervision. We argue that existing Weak-to-Strong Generalization (W2SG) theories lack prescriptive guidelines for selecting high-quality training signals from noisy data. To bridge this gap, we introduce the Dual-Consensus Weak-to-Strong (DC-W2S) framework. By intersecting Self-Consensus (SC) metrics among weak supervisors with Neighborhood-Consensus (NC) metrics in the embedding space, we stratify supervision signals into distinct reliability regimes. We then employ a curriculum of instance-level balanced sampling and label-level reliability-aware masking to guide the training process. We demonstrate that DC-W2S enables the training of robust PRMs for complex reasoning without exhaustive expert annotation, proving that strategic data curation is more effective than indiscriminate training on large-scale noisy datasets.
- Abstract(参考訳): 科学的推論タスクでは、推論プロセスの正確さは最終的な結果と同じくらい批判的である。
プロセス・リワード・モデル(PRM)は、アウトカム・リワード・モデル(ORM)に固有の粗い粒度の監督問題に対する解決策を提供するが、それらの展開は、専門家が検証したステップワイドなラベルを取得するという禁止的なコストによって妨げられる。
本稿では,多量だがノイズの多い「弱」監視を用いた信頼性PRMの訓練の課題について論じる。
Weak-to-Strong Generalization (W2SG)理論はノイズデータから高品質なトレーニング信号を選択するための規範的ガイドラインを欠いている。
このギャップを埋めるために、Dual-Consensus Weak-to-Strong (DC-W2S)フレームワークを紹介します。
埋め込み空間における自己合意(SC)メトリクスと近隣合意(NC)メトリクスとを交差させることにより、監視信号を異なる信頼性体制に階層化する。
次に、トレーニングプロセスの指針として、インスタンスレベルのバランスの取れたサンプリングとラベルレベルの信頼性を意識したマスキングのカリキュラムを用いる。
我々は,DC-W2Sが複雑な推論のための堅牢なPRMのトレーニングを,大規模ノイズデータセットの非差別的トレーニングよりも戦略的データキュレーションの方が効果的であることを実証した。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。