論文の概要: $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space
- arxiv url: http://arxiv.org/abs/2603.04948v1
- Date: Thu, 05 Mar 2026 08:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.143984
- Title: $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space
- Title(参考訳): $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space
- Authors: Peihao Wang, Ruisi Cai, Zhen Wang, Hongyuan Mei, Qiang Liu, Pan Li, Zhangyang Wang,
- Abstract要約: $nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
- 参考スコア(独自算出の注目度): 71.23672814629448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling inference-time compute for Large Language Models (LLMs) has unlocked unprecedented reasoning capabilities. However, existing inference-time scaling methods typically rely on inefficient and suboptimal discrete search algorithms or trial-and-error prompting to improve the online policy. In this paper, we propose $\nabla$-Reasoner, an iterative generation framework that integrates differentiable optimization over token logits into the decoding loop to refine the policy on the fly. Our core component, Differentiable Textual Optimization (DTO), leverages gradient signals from both the LLM's likelihood and a reward model to refine textual representations. $\nabla$-Reasoner further incorporates rejection sampling and acceleration design to robustify and speed up decoding. Theoretically, we show that performing inference-time gradient descent in the sample space to maximize reward is dual to aligning an LLM policy via KL-regularized reinforcement learning. Empirically, $\nabla$-Reasoner achieves over 20% accuracy improvement on a challenging mathematical reasoning benchmark, while reducing number of model calls by approximately 10-40% compared to strong baselines. Overall, our work introduces a paradigm shift from zeroth-order search to first-order optimization at test time, offering a cost-effective path to amplify LLM reasoning.
- Abstract(参考訳): LLM(Large Language Models)に対する推論時間計算のスケーリングは、前例のない推論機能を解放した。
しかし、既存の推論時間スケーリング手法は、通常、オンラインポリシーを改善するために、非効率で最適な離散探索アルゴリズムや試行錯誤を頼りにしている。
本稿では,トークンロジットに対する微分可能な最適化をデコードループに組み込んだ反復生成フレームワークである$\nabla$-Reasonerを提案する。
我々の中核コンポーネントである微分可能なテキスト最適化(DTO)は、LLMの可能性と報酬モデルの両方からの勾配信号を利用してテキスト表現を洗練します。
$\nabla$-Reasonerはさらにリジェクションサンプリングとアクセラレーション設計を採用してデコードを強化し高速化する。
理論的には、報酬を最大化するためにサンプル空間で推論時間勾配降下を実行することは、KL正規化強化学習を通してLLMポリシーを整合させるのと二重であることを示す。
経験的に、$\nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度向上を達成する一方で、強力なベースラインに比べてモデル呼び出しの数を約10~40%削減する。
本研究は総合的にゼロ階探索から1階最適化へのパラダイムシフトを導入し,LCM推論を増幅するコスト効率の高い経路を提供する。
関連論文リスト
- Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search [29.662680998899294]
我々は、勾配に基づく最適化を運用するMLEエージェントであるtextscGomeを紹介する。
textscGomeは、MLE-Bench上での最先端の35.1%の医療率を実現し、単一のV100 GPU上では12時間の予算が制限されている。
論文 参考訳(メタデータ) (2026-03-02T10:22:47Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - Predicting and improving test-time scaling laws via reward tail-guided search [11.49701649103495]
テストタイムのスケーリングは、大規模言語モデルの推論能力を向上するための重要な道として現れました。
テール誘導探索によるスケーリング特性の予測と改善のための新しい手法を提案する。
本手法は,報酬のテール分布を推定することにより,総括評価を必要とせず,LLMのスケーリング法則を予測する。
論文 参考訳(メタデータ) (2026-02-01T23:40:25Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - OAT-Rephrase: Optimization-Aware Training Data Rephrasing for Zeroth-Order LLM Fine-Tuning [25.76983801886268]
本稿では,OAT-Rephraseについて紹介する。
OAT-RephraseはMeZOの微調整性能を常に改善することを示す。
提案手法は,ゼロ階調音システムにおける再利用可能な低オーバヘッド向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-10T02:53:04Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。