論文の概要: A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.15444v1
- Date: Fri, 17 Oct 2025 08:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.547402
- Title: A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
- Title(参考訳): LLM推論におけるブリッジング内部確率と自己整合性に関する理論的研究
- Authors: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma,
- Abstract要約: サンプリングに基づくテスト時間スケーリング手法を解析するための最初の理論的枠組みを提供する。
RPCは2つの重要なコンポーネント、パープレキシティ・一貫性と推論・プルーニングを通じて、理論的な洞察を活用するハイブリッド手法です。
RPCは、信頼性を向上するだけでなく、サンプリングコストを50%削減しながら、自己整合性に匹敵する推論性能を達成する。
- 参考スコア(独自算出の注目度): 31.861874030715953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling seeks to improve the reasoning performance of large language models (LLMs) by adding computational resources. A prevalent approach within the field is sampling-based test-time scaling methods, which enhance reasoning by generating multiple reasoning paths for a given input during inference. However, despite its practical success, the theoretical foundations remain underexplored. In this paper, we provide the first theoretical framework for analyzing sampling-based test-time scaling methods, grounded in the perspective of confidence estimation. Based on the framework, we analyze two dominant paradigms: self-consistency and perplexity, and reveal key limitations: self-consistency suffers from high estimation error while perplexity exhibits substantial modeling error and possible degradation of the estimation error convergence. To address these limitations, we introduce RPC, a hybrid method that leverages our theoretical insights through two key components: Perplexity Consistency and Reasoning Pruning. Perplexity Consistency combines the strengths of self-consistency and perplexity, boosting the convergence rate of estimation error from linear to exponential while preserving model error. Reasoning Pruning prevents degradation by eliminating low-probability reasoning paths. Both theoretical analysis and empirical results across seven benchmark datasets demonstrate that RPC has a strong potential for reducing reasoning error. Notably, RPC achieves reasoning performance comparable to self-consistency while not only enhancing confidence reliability but also reducing sampling costs by 50%. The code and resources are available at https://wnjxyk.github.io/RPC.
- Abstract(参考訳): テストタイムスケーリングは、計算資源を追加することで、大規模言語モデル(LLM)の推論性能を向上させることを目指している。
フィールド内の一般的なアプローチはサンプリングベースのテスト時間スケーリング手法であり、推論中に与えられた入力に対して複数の推論経路を生成することによって推論を強化する。
しかし、その実際的な成功にもかかわらず、理論の基礎は未解明のままである。
本稿では,信頼度推定の観点から,サンプリングに基づくテスト時間スケーリング手法を解析するための最初の理論的枠組みを提案する。
自己整合性(self-consistency)と自己整合性(perplexity)という2つの主要なパラダイムを分析し,自己整合性(self-consistency)は高い推定誤差に悩まされる一方で,パープレキシティ(perplexity)は相当なモデリング誤差と推定誤差収束の低下を示す。
これらの制限に対処するため、我々はRPCという2つの重要なコンポーネントを通して理論的な洞察を活用するハイブリッドな手法を紹介します。
パープレキシティ・コンシステンシーは自己整合性とパープレキシティの強さを結合し、モデル誤差を保ちながら推定誤差の収束率を線形から指数的に向上させる。
推論プルーニングは、低確率推論経路を排除して劣化を防止する。
7つのベンチマークデータセットの理論的解析と実証結果は、RPCが推論エラーを減らす強力な可能性を持っていることを示している。
特にRPCは、信頼性を向上するだけでなく、サンプリングコストを50%削減しながら、自己整合性に匹敵する推論性能を実現している。
コードとリソースはhttps://wnjxyk.github.io/RPCで入手できる。
関連論文リスト
- Statistical Inference for Conditional Group Distributionally Robust Optimization with Cross-Entropy Loss [9.054486124506521]
本研究では,複数のソースドメインからラベル付きデータを抽出し,対象ドメインからラベル付きデータのみを抽出するマルチソース非教師付きドメイン適応について検討する。
本稿では,条件条件分布の凸結合に対する最悪のクロスエントロピー損失を最小限に抑え,分類器を学習する新しい条件条件最適化(CG-DRO)フレームワークを提案する。
理論的ブリッジとして機能する2つのサロゲート極小最適化問題を構築することにより、推定器の高速な統計的収束率を確立する。
論文 参考訳(メタデータ) (2025-07-14T04:21:23Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - MANO: Exploiting Matrix Norm for Unsupervised Accuracy Estimation Under Distribution Shifts [25.643876327918544]
モデルのアウトプット、特にロジットを活用することは、トレーニング済みニューラルネットワークのテスト精度を、アウト・オブ・ディストリビューションのサンプルで推定する一般的なアプローチである。
実装の容易さと計算効率にもかかわらず、現在のロジットベースの手法は過信問題に弱いため、予測バイアスにつながる。
予測バイアスを低減するためにデータ依存正規化を適用したMaNoを提案し,正規化ロジットの行列の$L_p$ノルムを推定スコアとする。
論文 参考訳(メタデータ) (2024-05-29T10:45:06Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。