論文の概要: PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models
- arxiv url: http://arxiv.org/abs/2506.10716v1
- Date: Thu, 12 Jun 2025 14:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.769151
- Title: PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models
- Title(参考訳): PreMISE:大規模モデルにおける効率的な数学的推論のためのスケーラブルで戦略的プロンプト最適化
- Authors: Ye Yu, Yaoning Yu, Haohan Wang,
- Abstract要約: Claude 3.7 Sonnet や OpenAI o1 のような大きな推論モデル (LRM) は、長いチェーン・オブ・シークレット (CoT) 推論を用いて数学的なベンチマークで高い性能を達成する。
これによりトークンの使用とコストが膨らみ、レイテンシに敏感な設定やAPI制約のある設定でのデプロイメントが制限される。
モデル重みを変更することなく、推論オーバーヘッドを低減するプロンプトのみのフレームワークであるPreMISEを紹介する。
- 参考スコア(独自算出の注目度): 14.824367675818355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) such as Claude 3.7 Sonnet and OpenAI o1 achieve strong performance on mathematical benchmarks using lengthy chain-of-thought (CoT) reasoning, but the resulting traces are often unnecessarily verbose. This inflates token usage and cost, limiting deployment in latency-sensitive or API-constrained settings. We introduce PREMISE (PRompt-based Efficient Mathematical Inference with Strategic Evaluation), a prompt-only framework that reduces reasoning overhead without modifying model weights. PREMISE combines trace-level diagnostics with gradient-inspired prompt optimization to minimize redundant computation while preserving answer accuracy. The approach jointly optimizes brevity and correctness through a multi-objective textual search that balances token length and answer validity. Unlike prior work, PREMISE runs in a single-pass black-box interface, so it can be applied directly to commercial LLMs. On GSM8K, SVAMP, and Math500 we match or exceed baseline accuracy ($96\%\rightarrow96\%$ with Claude, $91\%\rightarrow92\%$ with Gemini) while reducing reasoning tokens by up to $87.5\%$ and cutting dollar cost by $69$--$82\%$. These results show that prompt-level optimization is a practical and scalable path to efficient LRM inference without compromising reasoning quality.
- Abstract(参考訳): Claude 3.7 Sonnet や OpenAI o1 のような大きな推論モデル (LRM) は、長いチェーン・オブ・シークレット (CoT) 推論を用いて数学的なベンチマークで高い性能を達成するが、結果として生じる痕跡はしばしば冗長である。
これによりトークンの使用とコストが膨らみ、レイテンシに敏感な設定やAPI制約のある設定でのデプロイメントが制限される。
モデル重みを変更せずに推論オーバーヘッドを低減するプロンプトのみのフレームワークであるPreMISE(PRompt-based Efficient Mathematical Inference with Strategic Evaluation)を紹介する。
PreMISEは、解答精度を維持しながら冗長な計算を最小限に抑えるために、トレースレベルの診断と勾配にインスパイアされたプロンプト最適化を組み合わせる。
このアプローチは,トークンの長さと解答の妥当性のバランスをとる多目的テキスト検索を通じて,簡潔さと正しさを共同で最適化する。
以前の作業とは異なり、PreMISEはシングルパスのブラックボックスインタフェースで動作し、商用のLLMに直接適用することができる。
GSM8K、SVAMP、Math500では、ベースライン精度(96\%\rightarrow96\%$とClaude、911\%\rightarrow92\%$とGemini)にマッチするか、超過します。
これらの結果から,プロンプトレベルの最適化は,推論品質を損なうことなく,効率的なLEM推論を実現するための実用的でスケーラブルな手法であることが示唆された。
関連論文リスト
- Fast on the Easy, Deep on the Hard: Efficient Reasoning via Powered Length Penalty [13.843606627539597]
本研究では,より単純な問題に対して簡潔性を促進することにより,大規模言語モデル(LLM)の効率を向上させることを目的とする。
我々は、報酬関数を分割し、出力長の新しいペナルティを含むことにより、モデルの推論効率を管理する。
提案手法はGSM8K, MATH500, AIME2024という3つのデータセットのベンチマーク評価において顕著な結果を得た。
論文 参考訳(メタデータ) (2025-06-12T07:49:24Z) - A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings [64.36404136352287]
A*-Thoughtは、最も本質的な思考を識別し、分離するために設計された効率的なツリー検索ベースの統合フレームワークである。
LRMの推論過程を探索木として定式化し、各ノードは巨大な推論空間における推論スパンを表す。
低予算でQwQ-32Bを2.39$times$で改善し、高予算で出力トークンの長さを50%近く削減できる。
論文 参考訳(メタデータ) (2025-05-30T12:58:34Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。
最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。
バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。