論文の概要: Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
- arxiv url: http://arxiv.org/abs/2510.13940v1
- Date: Wed, 15 Oct 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.555199
- Title: Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
- Title(参考訳): 最小限のテスト時間干渉によるLLM推論の改善
- Authors: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen,
- Abstract要約: Minimal Test-Time Intervention (MTI)は、最小限のオーバーヘッドで推論精度と安定性を向上させるトレーニング不要のフレームワークである。
MTIは、Qwen3-32B-Reasoningを使用して、Qwen3-8B-Baseの8つのベンチマークで平均+1.35%、AIME2024で+5%、一般、コーディング、STEMタスクで一貫した利得を得る。
- 参考スコア(独自算出の注目度): 46.18660010248197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining highly efficient.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論計算の増大による推論を改善するために、テスト時のスケーリングに焦点を合わせている。
不確実性の推論は高度に局所化されているが、高エントロピートークンの小さな部分集合は出力の正しさに大きく影響する。
そこで我々は,最小限のオーバーヘッドで推論精度と安定性を向上させるトレーニングフリーフレームワークであるMinimmal Test-Time Intervention (MTI)を提案する。
MTIには以下のものがある。
一 選択的なCFG介入、不確実な位置のみに分類なし指導を適用すること。
(II)主モデルのKVキャッシュを再利用して非条件復号を効率的に近似する軽量負のプロンプトガイダンス。
MTIは、Qwen3-32B-Reasoning- remaining の8つのベンチマークで平均 +1.35%、Qwen3-32B-Reasoning- remaining の AIME2024 で+5% の改善を達成している。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - MUR: Momentum Uncertainty guided Reasoning for Large Language Models [23.766037094142117]
大規模言語モデル(LLM)は、推論集約的なタスクにおいて素晴らしいパフォーマンスを達成した。
MUR(Momentum Uncertainty-Guided Reasoning)は、時間とともに段階的に不確実性を追跡・集約することで、思考予算を批判的推論ステップに割り当てる。
その結果、MURは平均50%以上減少し、精度は0.62-3.37%向上した。
論文 参考訳(メタデータ) (2025-07-20T13:36:19Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [29.721108461390973]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - Entropy-Gated Branching for Efficient Test-Time Reasoning [21.810952984561116]
テスト時間計算法は、大規模言語モデル(LLM)の推論能力と問題解決精度を大幅に向上させることができる。
本稿では,高不確実性ステップのみに分岐するEntropy-Gated Branching (EGB)を提案する。
数学と財務の推論ベンチマークでは、EGBは標準的な推論よりも22.6%精度を向上し、数学のベンチマークで31%-75%高速に動作している。
論文 参考訳(メタデータ) (2025-03-27T20:18:22Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。