論文の概要: CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency
- arxiv url: http://arxiv.org/abs/2605.05873v1
- Date: Thu, 07 May 2026 08:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.637861
- Title: CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency
- Title(参考訳): CITE: LLM自己整合性における任意のValid統計的推論
- Authors: Hirofumi Ota, Naoto Iwase, Yuki Ichihara, Junpei Komiyama, Masaaki Imaizumi,
- Abstract要約: 本研究では,モデル応答分布の特異なモードとして,あらかじめ指定した対象解の任意の正当性検証について検討する。
本稿では,任意の所定のレベルで偽認証を確実に制御するCITEアルゴリズムを用いた区間統一試験による認証を提案する。
また、カテゴリセットなしの停止時間率を証明し、メインレジーム内の定数に一致するミニマックスの下限を確立し、信頼度の高い投票に拡張する。
- 参考スコア(独自算出の注目度): 10.34950275095264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often improve reasoning by sampling multiple outputs and aggregating their final answers, but precise and efficient control of error levels remains a challenging task. In particular, deciding when to stop sampling remains difficult when the stopping rule is data-dependent and the set of possible answers is not known in advance. We study anytime-valid certification of a prespecified target answer as the unique mode of the model's response distribution, a guarantee distinct from answer correctness. We propose the Certification by Intersection-union Testing with E-processes (CITE) algorithm, which provably controls false certification at any prescribed level under arbitrary data-driven stopping, without requiring prior knowledge of the answer category set. We also prove an category-set-size-free stopping-time rate, establish matching minimax lower bounds up to constants in the main regime, and extend the construction to confidence-weighted voting. Simulations and LLM self-consistency experiments show empirical error control and improved certification in diffuse-tail settings.
- Abstract(参考訳): 大規模言語モデルは、複数のアウトプットをサンプリングして最終回答を集約することで推論を改善することが多いが、正確かつ効率的なエラーレベルの制御は難しい課題である。
特に、停止ルールがデータ依存であり、事前に可能な答えの集合が分かっていない場合、サンプリングをいつ停止するかは、依然として決定が難しい。
本研究では,あらかじめ特定された対象解の任意の正解をモデル応答分布のユニークなモードとして検証し,正解の正確性とは異なる保証を与える。
本稿では,任意のデータ駆動の停止条件下で,解答カテゴリの事前知識を必要とせず,任意のレベルで偽証明を確実に制御するCITEアルゴリズムによる証明を提案する。
また、カテゴリセットなしの停止時間率を証明し、メインレジーム内の定数に一致するミニマックスの下限を確立し、信頼度の高い投票に拡張する。
シミュレーションとLLM自己整合性実験は、拡散テール設定における経験的エラー制御と認証の改善を示す。
関連論文リスト
- Unsupervised Confidence Calibration for Reasoning LLMs from a Single Generation [2.526814143603023]
言語モデルの推論は、ますます複雑なタスクを解決することができるが、信頼性の高いデプロイメントに必要なキャリブレーションされた信頼推定を生成するのに苦労する。
推論時間に1世代しか利用できない場合,LLMを推論するための教師なし信頼度校正手法を提案する。
このアプローチでは、ラベル付きデータのオフラインサンプリングを使用して、自己整合性ベースのプロキシターゲットを導出し、この信号を軽量なデプロイメント時間信頼性予測器に蒸留する。
論文 参考訳(メタデータ) (2026-04-21T13:25:25Z) - FUSE: Ensembling Verifiers with Zero Labeled Data [11.563701622899295]
FUSE(Fully Unsupervised Score Ensembling)は、正当性ラベルにアクセスせずに検証器をアンサンブルすることで、検証品質を向上させる手法である。
ゼロ・グラウンドの真理ラベルを必要とするが、FUSEは通常テスト時間スケーリングの実験において、半教師ありの代替品と一致または改善する。
論文 参考訳(メタデータ) (2026-04-20T17:40:33Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Certified Self-Consistency: Statistical Guarantees and Test-Time Training for Reliable Reasoning in LLMs [4.829906774017035]
本稿では,大規模言語モデルにおける認証推論のための統一フレームワークを提案する。
多数決は自己整合性の統計的証明を提供することを示す。
さらに,TTRLのようなラベルなしのポストトレーニング手法が,回答分布を暗黙的に鋭くすることを示す。
論文 参考訳(メタデータ) (2025-10-20T12:14:12Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Generalized Robust Test-Time Adaptation in Continuous Dynamic Scenarios [18.527640606971563]
テスト時間適応(TTA)は、未ラベルのテストデータストリームのみを使用する推論フェーズにおいて、事前訓練されたモデルに分散をテストする。
本稿では,問題に効果的に対応する汎用ロバストテスト時間適応(GRoTTA)法を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:13:49Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。