論文の概要: Two Calls, Two Moments, and the Vote-Accuracy Curve of Repeated LLM Inference
- arxiv url: http://arxiv.org/abs/2605.03379v1
- Date: Tue, 05 May 2026 05:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.781671
- Title: Two Calls, Two Moments, and the Vote-Accuracy Curve of Repeated LLM Inference
- Title(参考訳): 2つの呼び出し、2つのモーメント、および繰り返しLLM推論の投票精度曲線
- Authors: Yi Liu,
- Abstract要約: 条件-i.d.呼び出しの繰り返しLLM推論における二項正当性層について検討した。
固定された多数決投票の予算は、鋭い分布のない2つの呼び出し間隔を持つ。
QNLI と QQP に対する LLM の呼出実験により, 投射した2発呼領域に3発と5発の発声アキュラシーが含まれていることが示された。
- 参考スコア(独自算出の注目度): 4.28787537081191
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Repeated sampling is a standard way to spend test-time compute, but its benefit is controlled by the latent distribution of correctness across examples, not by one-call accuracy alone. We study the binary correctness layer of repeated LLM inference under conditional-i.i.d. calls. One labeled call identifies the mean latent success probability; two labeled calls identify its second moment and hence the same-example correctness correlation that separates stable errors from recoverable call-level randomness. From these two moments, every fixed majority-vote budget has a sharp distribution-free two-call interval. The key technical reduction is that the infinite-dimensional moment problem has three-atom extremizers and quadratic dual certificates for every finite budget, so the bounds are exact rather than discretized or parametric. The first useful budget, three votes, has a closed form, width at most $1/8$, and a certified-improvement criterion. The infinite-vote endpoint is the limit of majority voting as the number of calls tends to infinity; it is also sharply bounded, but remains threshold-sensitive because it depends on latent mass around $q=1/2$. We add maximum-entropy and Latent-difficulty Gaussian-probit (LDGP) point completions, and experiments on LLM calls over QNLI and QQP show that empirical three- and five-vote accuracies are contained in the projected two-call regions while temperature changes and randomized model mixtures can create voting gains not ordered by one-call accuracy.
- Abstract(参考訳): 繰り返しサンプリングは、テスト時間計算の標準的な方法であるが、その利点は、1回の呼び出し精度だけでではなく、サンプル間での正しさの遅延分布によって制御される。
条件-i.d.呼び出しの繰り返しLLM推論における二項正当性層について検討した。
1つのラベル付き呼び出しは平均潜在成功確率を識別し、2つのラベル付き呼び出しはその第2モーメントを識別する。
この2つの瞬間から、固定された多数決投票の予算は、鋭い分布のない2つの呼び出し間隔を持つ。
重要な技術的縮小は、無限次元モーメント問題は有限予算ごとに3つの原子エクストリームライザと2次双対証明を持つため、境界は離散化やパラメトリック化よりも正確に決まることである。
最初の有用な予算である3票は、クローズドな形式で、最大で1/8ドルの幅があり、認定改善基準がある。
無限投票の終点は、呼び出しの数が無限大になる傾向があるため、多数決の限界である。
最大エントロピーおよびラテント微分ガウスプロビット(LDGP)点完備化を行い、QNLIおよびQQP上のLCM呼出し実験により、実証的な3値と5値の精度が投影された2つの呼出し領域に含まれることを示し、温度変化とランダム化モデル混合は1回の呼出し精度で順序づけられない投票ゲインを生成できることを示した。
関連論文リスト
- Tail allocation for conformal prediction intervals [1.0163716169047106]
本研究では,報告された予測セットが単一区間でなければならない場合の回帰の分割等式予測について,目標限界範囲が1-$である場合,名目上の誤発見レベルが$$である場合について検討する。
この報告制約の下では、自然条件対象は、等尾区間やおそらく非連結な高確率集合ではなく、条件質量が少なくとも1-$の最も短い区間である。
このシングルインターバルをローテールアロケーションによってパラメータ化し、名目上の誤発見が2つのエンドポイント間でどのように分割されるかを決定する。
論文 参考訳(メタデータ) (2026-04-28T04:14:27Z) - Accelerating Quantum Materials Characterization: Hybrid Active Learning for Autonomous Spin Wave Spectroscopy [0.0]
自律三軸スピン波分光のためのハイブリッド-物理インフォームドフレームワークTAS-AIを提案する。
ブラインドリコンストラクションベンチマークでは、ランダムサンプリング、粗いグリッド、ガウス過程マッパーといったモデルに依存しない手法が、物理情報プランニングよりも信頼性が高く、測定の少ないグローバルエラーしきい値に達する。
TAS-AIは10測定未満で決定的なAIC由来のエビデンス比(>100)に達する一方、モーションアウェアのスケジューリングは固定された測定予算でウォールタイム時間を32%削減する。
論文 参考訳(メタデータ) (2026-04-26T17:54:40Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Local Discovery by Partitioning: Polynomial-Time Causal Discovery Around Exposure-Outcome Pairs [18.31538168213386]
本稿では,因果推論タスクの分割(LDP)による局所的な発見を提案する。
LDPは制約ベースのプロシージャで、潜伏したコンバウンディングの下で露光出力ペアのVASを返す。
LDPの調整セットは、ベースライン発見アルゴリズムよりもバイアスが少なく、より正確な平均処理効果の推定値が得られる。
論文 参考訳(メタデータ) (2023-10-25T14:53:10Z) - Krotov Type Optimization of Coherent and Incoherent Controls for Open
Two-Qubit Systems [77.34726150561087]
この研究は、コヒーレントかつ非コヒーレントな制御によって駆動される2量子ビットオープン量子系を考える。
インコヒーレント制御は、環境の時間依存スペクトル密度を介して時間依存のデコヒーレンス率を誘導する。
システムは、時間依存係数を持つゴリーニ・コサコフスキー・スダルシャン・リンドブラッド・マスター方程式に従って進化する。
論文 参考訳(メタデータ) (2023-08-11T13:17:19Z) - Optimization of Time-Dependent Decoherence Rates and Coherent Control
for a Qutrit System [77.34726150561087]
非コヒーレント制御は、特定の制御方法で時間に応じてデコヒーレンス率を決定する。
我々は、システムの最終状態$rho(T)$と与えられたターゲット状態$rho_rmターゲットとの間のヒルベルト・シュミットの重なりを最大化する問題を考察する。
論文 参考訳(メタデータ) (2023-08-08T01:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。