論文の概要: Mode-Conditioning Unlocks Superior Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2512.01127v1
- Date: Sun, 30 Nov 2025 22:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.598404
- Title: Mode-Conditioning Unlocks Superior Test-Time Scaling
- Title(参考訳): モードコンディションのアンロックによるテスト時間スケーリング
- Authors: Chen Henry Wu, Sachin Goyal, Aditi Raghunathan,
- Abstract要約: 推論モード間でテスト時間計算を明示的に割り当てるモード条件フレームワークを提案する。
ModCは、制御されたグラフ検索タスクと大規模推論ベンチマークのスケーリングを継続的に改善する。
勾配クラスタリングにより、明示的なモードラベルなしでModCが実現され、データセットで最大10%のゲインが得られる。
- 参考スコア(独自算出の注目度): 39.04956625374238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel sampling promises substantial gains in test-time scaling, but its effectiveness is sharply limited by diversity collapse, where models concentrate on a few modes and repeated samples produce the same mistakes. We propose the mode-conditioning (ModC) framework, which explicitly allocates test-time compute across reasoning modes using either specialist models or mode-specific prefixes. ModC consistently improves scaling across controlled graph-search tasks and large-scale reasoning benchmarks, spanning model families and sizes from 0.5B to 7B. On OpenThoughts, fine-tuning Qwen2.5-7B with ModC achieves a 4x efficiency gain over standard training while also improving the maximum attainable Pass@k. We further show that gradient clustering enables ModC without explicit mode labels, yielding up to 10% gains on datasets such as NuminaMath. Finally, we show that ModC improves reinforcement learning (RL) and can further boost diversity-inducing RL methods. These results demonstrate that standard training underutilizes the diversity in data, and that ModC provides a simple, effective remedy for unlocking the full benefits of diversity in test-time scaling.
- Abstract(参考訳): 並列サンプリングは、テスト時間のスケーリングにおいてかなりの増加を約束するが、その効果は多様性の崩壊によって著しく制限され、モデルがいくつかのモードに集中し、繰り返しサンプルが同じミスを発生させる。
提案するMod-conditioning (ModC) フレームワークは,スペシャリストモデルあるいはモード固有のプレフィックスを用いて,推論モード間のテスト時間計算を明示的に割り当てる。
ModCは、コントロールされたグラフ検索タスクと大規模推論ベンチマークのスケールを継続的に改善し、モデルファミリとサイズを0.5Bから7Bに拡大する。
OpenThoughtsでは、ModCによる微調整のQwen2.5-7Bが、標準トレーニングよりも4倍の効率向上を実現し、最大到達可能なPass@kも改善している。
さらに、勾配クラスタリングは明示的なモードラベルなしでModCを可能にし、NuminaMathのようなデータセットで最大10%のゲインが得られることを示す。
最後に、ModCは強化学習(RL)を改善し、多様性を誘導するRL法をさらに強化できることを示す。
これらの結果は、標準トレーニングがデータの多様性を損なうことを示し、ModCはテスト時間スケーリングにおける多様性のすべてのメリットを解放するためのシンプルで効果的な治療法を提供する。
関連論文リスト
- Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。
250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。
最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文 参考訳(メタデータ) (2025-05-23T01:05:07Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Adaptive Rectification Sampling for Test-Time Compute Scaling [10.160759436445526]
よりきめ細かいレベルでの誤りの修正を支援するために,適応整形サンプリング(AR-Sampling)を提案する。
提案手法により, よりきめ細かいレベルでの再考が可能となり, 解の精度が向上し, 合理的な数のトークンが生成される。
論文 参考訳(メタデータ) (2025-04-02T02:57:52Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。