論文の概要: ConSol: Sequential Probability Ratio Testing to Find Consistent LLM Reasoning Paths Efficiently
- arxiv url: http://arxiv.org/abs/2503.17587v1
- Date: Sat, 22 Mar 2025 00:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:22.691896
- Title: ConSol: Sequential Probability Ratio Testing to Find Consistent LLM Reasoning Paths Efficiently
- Title(参考訳): ConSol: 一貫性LLM推論パスを効率よく検出するための逐次確率比テスト
- Authors: Jaeyeon Lee, Guantong Qi, Matthew Brady Neeley, Zhandong Liu, Hyun-Hwan Jeong,
- Abstract要約: 小言語モデル(LLM)は、回答を提供する前に中間推論ステップを生成することで複雑なタスクを解決する。
広く使われている自己整合性法は、精度を向上させるために複数の推論経路を集約することにより、これらのコストをさらに高める。
十分な整合性が達成できればサンプリングを動的に停止するために,逐次確率比検定(SPRT)を活用することを提案する。
- 参考スコア(独自算出の注目度): 3.6393221632527686
- License:
- Abstract: Recent advancements in large language models (LLMs) integrating explicit reasoning, such as OpenAI's o3-mini, DeepSeek-R1, and QWQ-32B, enable smaller models to solve complex tasks by generating intermediate reasoning steps prior to providing answers. However, this approach significantly increases computational costs, both monetarily and environmentally. The widely-used self-consistency method further exacerbates these costs by aggregating multiple reasoning paths to improve accuracy, often requiring between 40 to 64 samples per task. Although aggregation effectively reduces variance and bias, additional sampling can lead to diminishing returns when early samples yield consistent results. To address inefficiencies, we propose leveraging Sequential Probability Ratio Testing (SPRT) to dynamically terminate sampling once sufficient consistency is achieved. We calibrate SPRT parameters specifically for LLM applications, accounting for sensitivity to detect the mode of the distribution. Our experiments demonstrate that incorporating SPRT significantly enhances token efficiency, achieving comparable accuracy to self-consistency methods but at a substantially reduced computational cost. To promote transparency and facilitate reproducibility, we have made the source code and datasets used in our experiments publicly available at our GitHub repository: https://github.com/LiuzLab/consol, or available as a PyPI package: pip install consol. We hope that this resource will support further research and encourage the development of new methods building upon our work.
- Abstract(参考訳): OpenAIのo3-mini、DeepSeek-R1、QWQ-32Bのような明示的な推論を統合した大規模言語モデル(LLM)の最近の進歩により、より小さなモデルでは、回答を提供する前に中間的推論ステップを生成することで複雑なタスクを解くことができる。
しかし、このアプローチは、金銭的にも環境的にも、計算コストを大幅に向上させる。
広く使われている自己整合性法は、複数の推論経路を集約して精度を向上させることで、これらのコストをさらに高める。
凝集は分散とバイアスを効果的に減少させるが、初期サンプルが一貫した結果をもたらすと、追加サンプリングはリターンを低下させる。
不効率に対処するために、十分な整合性が達成すればサンプリングを動的に停止するために、逐次確率比検定(SPRT)を活用することを提案する。
LLMアプリケーションに特化してSPRTパラメータを校正し、分布のモードを検出する感度を考慮した。
本研究では,SPRTの導入によりトークン効率が大幅に向上し,自己整合性手法に匹敵する精度が向上するが,計算コストを大幅に削減できることを示した。
透明性を促進し再現性を促進するため、GitHubリポジトリで公開している実験で使用されているソースコードとデータセットを公開しました。
我々は,この資源がさらなる研究を支援し,我々の研究を基盤とした新しい手法の開発を促進することを願っている。
関連論文リスト
- Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。
モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。
本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文 参考訳(メタデータ) (2024-11-01T17:18:45Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Resampling Stochastic Gradient Descent Cheaply for Efficient Uncertainty
Quantification [6.832893024035705]
本稿では,SGDソリューションの信頼性区間を構築するために,計算的に安価に再サンプリングする2つの手法について検討する。
データのリサンプリングと置換によって複数のSGDを並行して使用するものもあれば、オンライン形式で運用するものもある。
論文 参考訳(メタデータ) (2023-10-17T08:18:10Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - A Conditional Randomization Test for Sparse Logistic Regression in
High-Dimension [36.00360315353985]
emphCRT-logitは、変数蒸留ステップとデコレーションステップを組み合わせたアルゴリズムである。
本手法の理論的解析を行い,大規模な脳画像とゲノムデータセットの実験とともにシミュレーションにおける有効性を示す。
論文 参考訳(メタデータ) (2022-05-29T09:37:16Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。