論文の概要: Step-level Verifier-guided Hybrid Test-Time Scaling for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.15512v1
- Date: Mon, 21 Jul 2025 11:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.374274
- Title: Step-level Verifier-guided Hybrid Test-Time Scaling for Large Language Models
- Title(参考訳): ステップレベル検証による大規模言語モデルのハイブリッドテスト時間スケーリング
- Authors: Kaiyan Chang, Yonghao Shi, Chenglong Wang, Hang Zhou, Chi Hu, Xiaoqian Liu, Yingfeng Luo, Yuan Ge, Tong Xiao, Jingbo Zhu,
- Abstract要約: テスト時間スケーリングは、推論中にモデルのインテリジェンスを段階的に引き出す、有望なアプローチである。
本稿では,推論のためのトレーニング不要なTTS手法に焦点をあてる。
ハイブリッドテスト時間スケーリングと呼ばれる新しい推論パラダイムを導入する。
- 参考スコア(独自算出の注目度): 53.567732520169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Scaling (TTS) is a promising approach to progressively elicit the model's intelligence during inference. Recently, training-based TTS methods, such as continued reinforcement learning (RL), have further surged in popularity, while training-free TTS methods are gradually fading from prominence. However, the additional computation overhead of training amplifies the burden on test-time scaling. In this paper, we focus on training-free TTS methods for reasoning. We first design Conditional Step-level Self-refinement, a fine-grained sequential scaling method guided by process verification. On top of its effectiveness, we further combine it with other classical parallel scaling methods at the step level, to introduce a novel inference paradigm called Hybrid Test-Time Scaling. Extensive experiments on five instruction-tuned LLMs across different scales (3B-14B) and families demonstrate that hybrid strategy incorporating various training-free TTS methods at a fine granularity has considerable potential for expanding the reasoning performance boundaries of LLMs.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、推論中にモデルのインテリジェンスを段階的に引き出す、有望なアプローチである。
近年、継続強化学習(RL)のようなトレーニングベースのTS法がさらに人気を増し、トレーニングフリーのTS法は徐々に流行から消えつつある。
しかし、トレーニングのさらなる計算オーバーヘッドは、テスト時間スケーリングの負担を増幅する。
本稿では,推論のためのトレーニング不要なTTS手法に焦点をあてる。
我々はまず,プロセス検証によって導かれる微細な逐次スケーリング手法である条件付きステップレベル自己精製法を設計する。
その効果に加えて、ステップレベルで他の古典的な並列スケーリング手法と組み合わせて、ハイブリッドテスト時間スケーリングと呼ばれる新しい推論パラダイムを導入します。
異なるスケール(3B-14B)にまたがる5つの命令調整 LLM に関する広範囲な実験により、様々なトレーニング不要 TTS 法を粒度に組み込んだハイブリッド戦略が LLM の性能境界を拡大する可能性を示した。
関連論文リスト
- Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。
本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文 参考訳(メタデータ) (2025-07-01T23:30:15Z) - Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model [7.250494262573953]
本稿では,VFScale(Verifier-free Test-time scalable Diffusion Model)を導入し,スケーラブルな本質的な推論を実現する。
モーゼとスドクの挑戦的推論タスクについて,VFScaleの学習目標とスケーラブルな推論手法の有効性を実証する。
特に、最大6ドルまでのMazeサイズでトレーニングされたVFScaleは、15ドル以上のMaze問題の88%を解決していますが、標準拡散モデルは完全に失敗します。
論文 参考訳(メタデータ) (2025-02-04T04:07:48Z) - SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [44.11609084435251]
本稿では、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する新しいアプローチであるSelf-Enhanced Test-Time Scaling(SETS)を紹介する。
SETSは、大規模言語モデルの固有の自己検証と自己補正機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統一する。
論文 参考訳(メタデータ) (2025-01-31T17:03:16Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。