論文の概要: Predicting Program Correctness By Ensemble Semantic Entropy
- arxiv url: http://arxiv.org/abs/2603.27098v1
- Date: Sat, 28 Mar 2026 02:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.780877
- Title: Predicting Program Correctness By Ensemble Semantic Entropy
- Title(参考訳): セマンティックエントロピーのアンサンブルによるプログラムの正確性予測
- Authors: Yunxiang Wei, Tianlin Li, Yuwei Zheng, Yanni Dong, Aishan Liu, Qiang Hu, Xiaoyu Zhang, Mingfei Cheng, Jian Yang,
- Abstract要約: 本研究では,モデルアンサンブル全体で集約されたサンプルの一貫性を評価することにより,不確実性を推定するEnsemble Semantic Entropy (ESE)を提案する。
LiveCodeBenchの実験では、ESEはシングルモデルセマンティックエントロピーよりもプログラムの正確性に強く関連している。
また、単一モデルスケーリングと比較してFLOPを64.9%削減しながら性能を維持できるカスケーディングテストタイムスケーリングフレームワークCasを提案する。
- 参考スコア(独自算出の注目度): 36.53771380869671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in generating programs from natural language descriptions, yet ensuring their correctness without an external oracle remains a critical challenge. To solve the challenge, existing methods often rely on uncertainty estimation, measuring the consistency of semantics or execution behaviors across multiple samples generated by a single model. However, we observe that a single model can often converge to a consistent but incorrect solution, rendering such consistency-based proxies ineffective. To address this, we propose Ensemble Semantic Entropy (ESE), which estimates uncertainty by evaluating the consistency of samples aggregated across an ensemble of models. Experiments on LiveCodeBench demonstrate that ESE correlates more strongly with program correctness than single-model semantic entropy. Notably, in selective generation tasks with strict false-positive rate constraints, ESE improves prediction accuracy by 53.4%. Furthermore, by leveraging ESE as the decision signal, we propose a cascading test-time scaling framework Cas, which maintains performance while reducing FLOPs by 64.9% compared to single-model scaling, offering a new perspective on balancing parameter and inference scaling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語記述からプログラムを生成する際、顕著な能力を示してきたが、外部のオラクルなしでプログラムの正確性を保証することは、依然として重要な課題である。
この問題を解決するために、既存の手法は、しばしば不確実性を推定し、単一のモデルによって生成された複数のサンプルに対して意味論や実行行動の一貫性を測定する。
しかし、単一モデルはしばしば一貫したが誤った解に収束し、そのような一貫したプロキシは有効ではない。
そこで本研究では,モデルアンサンブル全体で集約されたサンプルの一貫性を評価することにより,不確実性を推定するEnsemble Semantic Entropy (ESE)を提案する。
LiveCodeBenchの実験では、ESEはシングルモデルセマンティックエントロピーよりもプログラムの正確性に強く関連している。
特に、厳密な偽陽性率制約のある選択生成タスクでは、ESEは予測精度を53.4%向上させる。
さらに,ESEを決定信号として活用することにより,単一モデルスケーリングと比較してFLOPを64.9%削減しながら性能を維持し,パラメータのバランスと推論スケーリングの新たな視点を提供するカスケーディングテストタイムスケーリングフレームワークCasを提案する。
関連論文リスト
- Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets [6.673032375204486]
複数の予測器から非整合性スコアを集約する新しい手法であるSACP(Symmetric Aggregated Conformal Prediction)を提案する。
SACP はこれらのスコアを e-値に変換し、任意の対称アグリゲーション関数を用いてそれらを結合する。
我々はSACPが効率を継続的に改善し、しばしば最先端のモデルアグリゲーションベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-07T17:54:07Z) - Penalized Empirical Likelihood for Doubly Robust Causal Inference under Contamination in High Dimensions [0.720409153108429]
低サンプルサイズ方程式における平均処理効果を2倍頑健に推定する手法を提案する。
提案した信頼区間は, 競合する推定値と比較して効率がよいことを示す。
論文 参考訳(メタデータ) (2025-07-23T11:58:54Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Causal Invariance Learning via Efficient Optimization of a Nonconvex Objective [12.423111378195667]
本稿では,変数間の因果関係を求める新しい手法を提案する。
本手法は標準勾配法に収束することを示す。
我々のアルゴリズムは徹底的な探索を回避し、特に共変数が多ければなおさらである。
論文 参考訳(メタデータ) (2024-12-16T15:11:02Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Calibrating Over-Parametrized Simulation Models: A Framework via
Eligibility Set [3.862247454265944]
厳密な頻繁な統計的保証を満たす校正手法を開発するための枠組みを開発する。
本手法は,書籍市場シミュレータのキャリブレーションへの応用を含む,いくつかの数値例で実証する。
論文 参考訳(メタデータ) (2021-05-27T00:59:29Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。