論文の概要: Optimal Bayesian Stopping for Efficient Inference of Consistent LLM Answers
- arxiv url: http://arxiv.org/abs/2602.05395v1
- Date: Thu, 05 Feb 2026 07:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.815668
- Title: Optimal Bayesian Stopping for Efficient Inference of Consistent LLM Answers
- Title(参考訳): 連続LLMアンサーの効率的な推定のための最適ベイズ停止法
- Authors: Jingkai Huang, Will Ma, Zhengyuan Zhou,
- Abstract要約: LLMの精度を改善するための単純な戦略は、複数の応答をサンプリングし、最も一貫して到達した回答を提出することである。
本稿では,ベイジアン事前情報を利用してサンプリングコストを削減し,十分な整合性に達すると停止する。
正確な後部は計算に難航するが、L-1 の最も頻繁な解数だけを追跡する効率的な "L-集約" 停止ポリシーを導入する。
- 参考スコア(独自算出の注目度): 23.35033343929665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A simple strategy for improving LLM accuracy, especially in math and reasoning problems, is to sample multiple responses and submit the answer most consistently reached. In this paper we leverage Bayesian prior information to save on sampling costs, stopping once sufficient consistency is reached. Although the exact posterior is computationally intractable, we further introduce an efficient "L-aggregated" stopping policy that tracks only the L-1 most frequent answer counts. Theoretically, we prove that L=3 is all you need: this coarse approximation is sufficient to achieve asymptotic optimality, and strictly dominates prior-free baselines, while having a fast posterior computation. Empirically, this identifies the most consistent (i.e., mode) LLM answer using fewer samples, and can achieve similar answer accuracy while cutting the number of LLM calls (i.e., saving on LLM inference costs) by up to 50%.
- Abstract(参考訳): LLMの精度を改善するための単純な戦略は、特に数学や推論問題において、複数の応答をサンプリングし、最も一貫して到達した解を提出することである。
本稿では,ベイジアン事前情報を利用してサンプリングコストを削減し,十分な整合性に達すると停止する。
正確な後部は計算に難渋するが、L-1 の最も頻繁な解数だけを追跡する効率的な "L-aggregated" 停止ポリシーも導入する。
この粗い近似は漸近的最適性を達成するのに十分であり、高速な後続計算をしながら、厳密に非自由なベースラインを支配している。
経験的に、これはより少ないサンプルを用いて最も一貫性のある(つまりモード)LLM応答を識別し、LLM呼び出し数(すなわちLLM推論コストの節約)を最大50%削減しながら、同様の応答精度を達成できる。
関連論文リスト
- Learning to Reason Across Parallel Samples for LLM Reasoning [48.41933431325965]
大規模言語モデル(LLM)において、テスト時間計算のスケーリングは大幅なパフォーマンス向上をもたらす
本稿では,このような複数のサンプル集合を利用する新しい手法を提案する。
5つの推論データセットの実験は、SSAの有効性と効率を実証している。
論文 参考訳(メタデータ) (2025-06-10T17:42:35Z) - ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning [68.02825465552779]
我々は、思考長を長く考えるLLMに対して、シンプルで効果的な方法であるThinkPruneを提案する。
AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長は、パフォーマンスがわずか2%低下しただけで半分削減できる。
論文 参考訳(メタデータ) (2025-04-02T01:59:26Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。