論文の概要: Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models
- arxiv url: http://arxiv.org/abs/2603.01571v1
- Date: Mon, 02 Mar 2026 07:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.748244
- Title: Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models
- Title(参考訳): 長さスケーリングを超えて - 生成的リワードモデルのための可読性と深さの相乗化
- Authors: Qiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma,
- Abstract要約: モジュール型合成パイプラインを通じて,B-CoTとD-CoTに生理性を再構成するフレームワークであるMix-GRMを紹介する。
実験によると、Mix-GRMは5つのベンチマークで新しい最先端のベンチマークを確立し、主要なオープンソースRMを平均8.2%上回っている。
- 参考スコア(独自算出の注目度): 39.290072292743226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at \href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face}, and the code is released at \href{https://github.com/Don-Joey/Mix-GRM}{Github}.
- Abstract(参考訳): 最近のGRM(Generative Reward Models)の進歩は、CoT(Chain-of-Thought)推論のスケーリングが評価の信頼性を著しく向上させることを示した。
しかしながら、現在の研究は、Breadth-CoT(B-CoT、多次元原理カバレッジ)とDepth-CoT(D-CoT、即効性判断音性)という、異なる推論機構の分岐効果を無視した非構造的長さのスケーリングに大きく依存している。
この問題を解決するために,モジュール型合成パイプラインを通じて生の論理を構造化されたB-CoTとD-CoTに再構成するフレームワークであるMix-GRMを導入し,その機構を内部化し最適化するためにSupervised Fine-Tuning (SFT)とReinforcement Learning with Verifiable Rewards (RLVR)を採用した。
総合的な実験により、Mix-GRMは5つのベンチマークにまたがる新しい最先端のベンチマークを確立し、主要なオープンソースRMを平均8.2\%上回ることを示した。
B-CoTは主観的嗜好タスクに有効であるのに対し、D-CoTは客観的な正当性タスクに優れている。
これにより、タスクによる推論機構の誤認が直接性能を低下させる。
さらに、RLVRがスイッチング増幅器として機能し、モデルがタスク要求に合った推論スタイルを自発的に割り当てる創発的な分極を誘導することを示した。
合成されたデータとモデルは \href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face} でリリースされ、コードは \href{https://github.com/Don-Joey/Mix-GRM}{Github} でリリースされる。
関連論文リスト
- Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。
ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文 参考訳(メタデータ) (2026-02-03T08:15:57Z) - Mixture-of-Models: Unifying Heterogeneous Agents via N-Way Self-Evaluating Deliberation [0.0]
本稿では,N-Way Self-Evaluating Deliberation (NSED) プロトコル,Mixture-of-Models (MoM) アーキテクチャを提案する。
静的ゲーティングネットワークに依存する従来のMixture-of-Experts (MoE)とは異なり、NSEDはモデル選択をKnapsack問題のバリエーションとして扱うDynamic Expertise Brokerを使用している。
論文 参考訳(メタデータ) (2026-01-23T16:11:54Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection [21.26826497960086]
ゼロショット異常検出(ZSAD)によるVLMの事前訓練
パラメータ効率のよい畳み込み型低ランク適応 (Conv-LoRA) アダプタを提案する。
また、テキストプロンプトを適応的に変調するために視覚的コンテキストを活用する動的フュージョンゲートウェイ(DFG)を導入する。
論文 参考訳(メタデータ) (2025-08-11T10:03:45Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [46.75272311751018]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。
次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。