論文の概要: CGES: Confidence-Guided Early Stopping for Efficient and Accurate Self-Consistency
- arxiv url: http://arxiv.org/abs/2511.02603v1
- Date: Tue, 04 Nov 2025 14:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.071875
- Title: CGES: Confidence-Guided Early Stopping for Efficient and Accurate Self-Consistency
- Title(参考訳): CGES: 効率的で正確な自己整合性のための信頼指導型早期停止
- Authors: Ehsan Aghazadeh, Ahmad Ghasemi, Hedyeh Beyhaghi, Hossein Pishro-Nik,
- Abstract要約: 大規模な言語モデル(LLM)はテスト時に何度もクエリされ、多数決によって予測される。
本稿では,ベイズ的フレームワークであるCGES(Confidence-Guided Early Stopping)を紹介する。
CGESは、候補者の後部質量が閾値を超えるとサンプリングを適応的に停止する。
- 参考スコア(独自算出の注目度): 3.2807118426157493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are often queried multiple times at test time, with predictions aggregated by majority vote. While effective, this self-consistency strategy (arXiv:2203.11171) requires a fixed number of calls and can fail when the correct answer is rare. We introduce Confidence-Guided Early Stopping (CGES), a Bayesian framework that forms posteriors over candidate answers using scalar confidence signals derived from token probabilities or reward models. CGES adaptively halts sampling once the posterior mass of a candidate exceeds a threshold. We provide theoretical guarantees for both perfectly calibrated confidences and realistic noisy confidence signals. Across five reasoning benchmarks, CGES reduces the average number of model calls by about 69 percent (for example, from 16.0 to 4.9) while matching the accuracy of self-consistency within 0.06 percentage points.
- Abstract(参考訳): 大規模な言語モデル(LLM)はテスト時に何度もクエリされ、多数決によって予測される。
有効ではあるが、この自己整合戦略(arXiv:2203.11171)は一定数の呼び出しを必要とし、正しい答えが稀に失敗する可能性がある。
本稿では,トークン確率や報奨モデルから導出されるスカラー信頼信号を用いて,候補回答よりも後方に形成するベイズ的枠組みである信頼誘導早期停止(CGES)を紹介する。
CGESは、候補者の後部質量が閾値を超えるとサンプリングを適応的に停止する。
完全校正された信頼信号と現実的な雑音の信頼信号の両方について理論的に保証する。
5つの推論ベンチマークで、CGESは平均モデル呼び出し数を66%削減し(例えば16.0から4.9まで)、自己整合性の精度は0.06ポイント以内である。
関連論文リスト
- LLMs are Overconfident: Evaluating Confidence Interval Calibration with FermiEval [0.3499870393443268]
大規模言語モデル(LLM)は数値推定では優れているが、不確実性を正確に定量化するのに苦労する。
我々は,LLMが自身の回答の周囲の信頼区間を適切に構築し,体系的に過度に信頼されていることを明らかにする。
論文 参考訳(メタデータ) (2025-10-30T20:49:41Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - ConfRAG: Confidence-Guided Retrieval-Augmenting Generation [41.78313747240249]
複数の事実性ベンチマークで幻覚率を20~40%から5%以下に下げる微調整戦略であるConfQAを紹介した。
モデルが不確実に応答した場合のみRAGを起動するトリガー戦略であるConfRAGを提案する。
この枠組みは、不要な外部検索を30%以上削減しつつ、理想的な場合において95%以上の精度を達成する。
論文 参考訳(メタデータ) (2025-06-08T22:51:46Z) - Efficient Test-Time Scaling via Self-Calibration [18.32718448734639]
多数決によるBest-of-NサンプリングとSelf-Consistencyは単純かつ効果的だが、各クエリに対して一定の数のサンプリングレスポンスが必要である。
これは、より単純な問題に対する無駄な計算と、より困難な問題に対する不十分な探索をもたらす可能性がある。
反応のモデル信頼性は、テスト時間スケーリングの効率向上に有効である、と我々は主張する。
論文 参考訳(メタデータ) (2025-02-25T00:21:14Z) - Confidence Improves Self-Consistency in LLMs [17.280967928501678]
信頼性インフォームド・セルフ一貫性(CISC)について紹介する。
CISCは、モデルから直接得られる信頼度スコアに基づいて、重み付けされた多数決を行う。
9つのモデルと4つのデータセットでテストすると、CISCはほぼすべての構成で自己整合性を上回っます。
論文 参考訳(メタデータ) (2025-02-10T08:10:29Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。