論文の概要: Uncertainty Quantification for LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2605.12201v1
- Date: Tue, 12 May 2026 14:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.933831
- Title: Uncertainty Quantification for LLM-based Code Generation
- Title(参考訳): LLMに基づくコード生成の不確かさの定量化
- Authors: Senrong Xu, Yuhao Tan, Yanke Zhou, Guangyuan Wu, Zenan Li, Yuan Yao, Taolue Chen, Feng Xu, Xiaoxing Ma,
- Abstract要約: コード生成のためのリスク制御予測を構築するために,複数の仮説テストを利用するRisCoSetを提案する。
同程度のリスクで,コード削除を最大24.5%削減することができる。
- 参考スコア(独自算出の注目度): 18.240828221520257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prediction sets provide a theoretically grounded framework for quantifying uncertainty in machine learning models. Adapting them to structured generation tasks, in particular, large language model (LLM) based code generation, remains a challenging problem. An existing attempt proposes PAC prediction sets but is limited by its strong monotonicity assumption on risk and single-label classification framework, which severely limits the space of candidate programs and cannot accommodate the multiple valid outputs inherent to code generation. To address these limitations, we propose an approach RisCoSet that leverages multiple hypothesis testing to construct risk-controlling predictions for LLM-based code generation. Given a trained code generation model, we produce a prediction set represented by a partial program, which is guaranteed to contain a correct solution with high confidence. Extensive experiments on three LLMs demonstrate the effectiveness of the proposed method. For instance, compared with the state-of-the-art, our method can significantly reduce the code removal by up to 24.5%, at the same level of risk.
- Abstract(参考訳): 予測セットは、機械学習モデルにおける不確実性を定量化する理論的な基盤となるフレームワークを提供する。
構造化された生成タスク、特に大規模言語モデル(LLM)ベースのコード生成にそれらを適用することは、依然として困難な問題である。
既存の試みでは、PAC予測セットを提案するが、リスクに対する強い単調性仮定と、候補プログラムの空間を著しく制限し、コード生成に固有の複数の有効な出力に対応できない単一ラベル分類フレームワークによって制限されている。
これらの制約に対処するため、複数の仮説テストを活用してLLMベースのコード生成のためのリスク制御予測を構築するアプローチRisCoSetを提案する。
訓練されたコード生成モデルが与えられた場合、部分的なプログラムで表される予測セットを生成し、信頼性の高い正しい解を含むことが保証される。
提案手法の有効性を3つのLLM実験で実証した。
例えば、最先端技術と比較して、我々の方法は、同じレベルのリスクで、コード削除を最大24.5%削減することができる。
関連論文リスト
- Adaptive Conformal Prediction for Improving Factuality of Generations by Large Language Models [86.8650252164764]
大規模言語モデル(LLM)は、事実的に誤った出力を生成する傾向にある。
本研究では,LLMへのコンフォメーションスコア変換法を拡張する適応型コンフォメーション予測手法を提案する。
これにより、アクシデントに依存したキャリブレーションが可能となり、条件付きカバレッジを改善しながら、限界範囲のカバレッジ保証が維持される。
論文 参考訳(メタデータ) (2026-04-15T15:35:42Z) - Set-Valued Prediction for Large Language Models with Feasibility-Aware Coverage Guarantees [11.874705280173387]
本稿では,設定値予測のための原則的フレームワークを提案する。
LLM生成の有限サンプリングの性質を考えると、カバレッジは必ずしも達成可能であるとは限らない。
次に,サンプル応答から予測セットを構成するデータ駆動キャリブレーション手法を開発した。
論文 参考訳(メタデータ) (2026-03-24T09:00:07Z) - BEAVER: An Efficient Deterministic LLM Verifier [11.949243456810263]
本稿では,大規模言語モデルに基づく決定論的,健全な確率境界を計算するための最初の実践的フレームワークBEAVERを提案する。
検証問題を形式化し、アプローチの健全性を証明し、BEAVERを正当性検証、プライバシ検証、セキュアなコード生成タスクで評価する。
論文 参考訳(メタデータ) (2025-12-05T05:34:06Z) - Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。
我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文 参考訳(メタデータ) (2025-03-19T15:40:45Z) - Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。