論文の概要: ContextPRM: Leveraging Contextual Coherence for multi-domain Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2509.24460v1
- Date: Mon, 29 Sep 2025 08:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.866552
- Title: ContextPRM: Leveraging Contextual Coherence for multi-domain Test-Time Scaling
- Title(参考訳): ContextPRM: マルチドメインテストタイムスケーリングのためのコンテキストコヒーレンスを活用する
- Authors: Haotian Zhang, Liu Liu, Baosheng Yu, Jiayan Qiu, Likang Xiao, Yanwei Ren, Quan Chen, Xianglong Liu,
- Abstract要約: プロセス報酬モデル(PRM)は,テストタイムスケーリング(TTS)を活用して,大規模言語モデル(LLM)の数学的推論能力を高める上で,極めて有効であることを示す。
学習目標をドメイン固有の知識の検証からドメインに依存しない論理フローのモデリングにシフトする。
我々のアプローチは、さまざまなドメインにわたるモデルの一般化能力を高める新しいデータアノテーションとトレーニングフレームワークによって実現されている。
- 参考スコア(独自算出の注目度): 38.779046730647856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process reward models (PRMs) have demonstrated significant efficacy in enhancing the mathematical reasoning capabilities of large language models (LLMs) by leveraging test-time scaling (TTS). However, while most PRMs exhibit substantial gains in mathematical domains, the scarcity of domain-specific training data and knowledge-based learning patterns limits their generalization ability when faced with other domains. To address this limitation, we shift the learning objective from verifying domain-specific knowledge to modeling domain-agnostic logical flow. Centering on contextual coherence between chain-of-thought (CoT) steps, our approach is realized through a novel data annotation and training framework, which enhances the model's generalization capabilities across diverse domains. For instance, our resulting model, ContextPRM, achieves a notable 6.5% average accuracy improvement over the majority voting baseline via weighted majority voting across nine non-mathematical domains in MMLU-Pro, including law, history, and philosophy, significantly surpassing the 2.2% improvement from VersaPRM and 0.5% gains from other mathematics-focused PRMs, demonstrating consistent performance across both mathematical and non-mathematical domains.
- Abstract(参考訳): プロセス報酬モデル(PRM)は,テストタイムスケーリング(TTS)を活用することで,大規模言語モデル(LLM)の数学的推論能力を向上させる上で,極めて有効であることを示す。
しかし、ほとんどのPRMは、数学領域においてかなりの進歩を見せているが、ドメイン固有の訓練データや知識に基づく学習パターンの不足は、他の領域に直面するときの一般化能力を制限している。
この制限に対処するために、学習対象をドメイン固有の知識の検証からドメインに依存しない論理フローのモデリングにシフトする。
チェーン・オブ・シンク(CoT)ステップ間のコンテキスト的コヒーレンスを中心として,新しいデータアノテーションとトレーニングフレームワークによって,モデルがさまざまな領域にわたって一般化する能力を向上する。
例えば、私たちの結果のモデルであるContextPRMは、MMLU-Proの9つの非数学的領域(法、歴史、哲学を含む)にまたがる重み付けされた多数決投票を通じて、多数決ベースラインに対する顕著な平均精度を6.5%向上させ、VersaPRMの2.2%の改善と、他の数学に焦点を当てたPRMの0.5%向上を著しく上回り、数学的および非数学的ドメイン間の一貫したパフォーマンスを示す。
関連論文リスト
- Towards Text-free Graph Foundation Models: Rethinking Multi-Domain Graph Contrastive Learning [40.56379624114316]
本稿では,MDGCLという,新しいマルチドメイン事前学習およびクロスドメイン転送フレームワークを提案する。
事前学習の段階では、ドメインの違いを実質的に認識し、キャプチャするための対照的な学習戦略を設計する。
下流の段階では、細かなドメイン知識の伝達を可能にするためのドメインアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-06-26T03:14:50Z) - Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets [6.001837672951086]
モンテカルロ木探索を用いたプロセス・リワード・モデル(PRM)を提案する。
次に、生成フローネットワーク(GFlowNets)を推論ステップレベルで運用するように適応します。
経験的評価は、挑戦的な数学的ベンチマークにおいて、精度と解の多様性の両方が強く改善されていることを示している。
論文 参考訳(メタデータ) (2025-04-28T16:56:41Z) - DIDS: Domain Impact-aware Data Sampling for Large Language Model Training [61.10643823069603]
大規模言語モデルに対するドメインインパクト対応データサンプリング(DIDS)を提案する。
学習効果に基づくDIDSグループトレーニングデータでは、プロキシ言語モデルと次元削減が使用される。
同等のトレーニング効率を維持しながら平均パフォーマンスを3.4%向上させる。
論文 参考訳(メタデータ) (2025-04-17T13:09:38Z) - VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data [21.460891616139534]
本稿では,新しいデータ生成法とアノテーション法を用いて生成した合成推論データに基づいて学習したマルチドメインPRMであるVersaPRMを紹介する。
VersaPRMはさまざまなドメインで一貫したパフォーマンス向上を実現している。
VersaPRMのすべてのデータ、コード、モデルをオープンソース化することで、コミュニティにさらに貢献します。
論文 参考訳(メタデータ) (2025-02-10T18:03:36Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - f-Domain-Adversarial Learning: Theory and Algorithms [82.97698406515667]
教師なしのドメイン適応は、トレーニング中、ターゲットドメイン内のラベルなしデータにアクセス可能な、多くの機械学習アプリケーションで使用されている。
領域適応のための新しい一般化法を導出し、f-発散体の変分的特徴に基づく分布間の相違性の新しい尺度を利用する。
論文 参考訳(メタデータ) (2021-06-21T18:21:09Z) - Model-Based Domain Generalization [96.84818110323518]
本稿では,モデルベースドメイン一般化問題に対する新しいアプローチを提案する。
我々のアルゴリズムは、最新のwildsベンチマークの最先端手法を最大20ポイント上回った。
論文 参考訳(メタデータ) (2021-02-23T00:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。