論文の概要: Fine-grained Approaches for Confidence Calibration of LLMs in Automated Code Revision
- arxiv url: http://arxiv.org/abs/2604.06723v1
- Date: Wed, 08 Apr 2026 06:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.368924
- Title: Fine-grained Approaches for Confidence Calibration of LLMs in Automated Code Revision
- Title(参考訳): 自動コード修正におけるLCMの信頼性校正のためのきめ細かいアプローチ
- Authors: Hong Yi Lin, Chunhua Liu, Haoyu Gao, Patanamon Thongtanunam, Christoph Treude,
- Abstract要約: 正準緩和法は、インスタンスレベルでの正当性を忠実に反映した正当性スコアを提供することである。
本研究は, 局所プラッツスケーリングを3種類の微粒な信頼度スコアに別々に適用することを提案する。
より広い範囲の確率区間にわたるキャリブレーション誤差を, 微粒な信頼度スコアが常に低いキャリブレーション誤差を達成できることが判明した。
- 参考スコア(独自算出の注目度): 16.289117637700446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's AI-assisted software engineering landscape, developers increasingly depend on LLMs that are highly capable, yet inherently imperfect. The tendency of these models to produce incorrect outputs can reduce developer productivity. To this end, a canonical mitigation method is to provide calibrated confidence scores that faithfully reflect their likelihood of correctness at the instance-level. Such information allows users to make immediate decisions regarding output acceptance, abstain error-prone outputs, and better align their expectations with the model's capabilities. Since post-trained LLMs do not inherently produce well-calibrated confidence scores, researchers have developed post-hoc calibration methods, with global Platt-scaling of sequence-level confidence scores proving effective in many generative software engineering tasks but remaining unreliable or unexplored for automated code revision (ACR) tasks such as program repair, vulnerability repair, and code refinement. We hypothesise that the coarse-grained nature of this conventional method makes it ill-suited for ACR tasks, where correctness is often determined by local edit decisions and miscalibration can be sample-dependent, thereby motivating fine-grained confidence calibration. To address this, our study proposes local Platt-scaling applied separately to three different fine-grained confidence scores. Through experiments across 3 separate tasks and correctness metrics, as well as 14 different models of various sizes, we find that fine-grained confidence scores consistently achieve lower calibration error across a broader range of probability intervals, and this effect is further amplified when global Platt-scaling is applied. Our proposed approaches offer a practical solution to eliciting well-calibrated confidence scores, enabling more trustworthy and streamlined usage of imperfect models in ACR tasks.
- Abstract(参考訳): 今日のAI支援ソフトウェアエンジニアリングの世界では、開発者は高い能力を持つが本質的には不完全であるLCMに依存している。
これらのモデルが誤ったアウトプットを生み出す傾向は、開発者の生産性を低下させる。
この目的のために、標準緩和法は、インスタンスレベルでの正しさの可能性を忠実に反映した、校正された信頼スコアを提供することである。
このような情報により、アウトプットの受け入れに関する即時決定、エラーを起こしやすいアウトプットの排除、モデルの能力との期待の整合性が向上する。
ポストトレーニング後のLLMは、本質的にはよく校正された信頼スコアを生成するわけではないため、研究者は、多くの生成的ソフトウェア工学タスクに有効であるが、プログラムの修復、脆弱性修復、コード修正のような自動コード修正(ACR)タスクのために、信頼できない、または未調査のままである、シーケンスレベルの信頼スコアのグローバルなプラットスケーリングを用いて、ポストホックキャリブレーション法を開発した。
本手法の粗粒度特性はACRタスクに不適であり, 局所的な編集決定によって正しさが決定され, 誤校正が標本依存となり, きめ細かな信頼度校正の動機となることが推測された。
そこで本研究では,局所プラッツスケーリングを3種類の微粒な信頼度スコアに別々に適用することを提案する。
3つの異なるタスクと正当性の測定値、および14の異なるモデルを用いて、より広い確率間隔で微粒な信頼度スコアが低いキャリブレーション誤差を連続的に達成し、この効果は、グローバルプラッツスケーリングを適用する際にさらに増幅される。
提案手法は,ACRタスクにおける不完全モデルの信頼性向上と合理化を実現し,信頼度の高い信頼度を求めるための実用的なソリューションを提供する。
関連論文リスト
- Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning [10.123352394689134]
よく校正された信頼性により、下流のシステムは、いつモデルを信頼するか、いつフォールバックメカニズムを延期するかを決定できる。
RLVRはタスク性能を向上するが、極めて自信過剰なモデルを生成する。
本稿では,意思決定確率を直接調整するキャリブレーション対応強化学習の定式化を提案する。
論文 参考訳(メタデータ) (2026-01-19T18:31:31Z) - Calibrating LLM Judges: Linear Probes for Fast and Reliable Uncertainty Estimation [25.80946316489521]
本稿では,Brierスコアに基づく損失をトレーニングした線形プローブを導入し,審査員の隠蔽状態から不確実性を校正した推定値を提供する。
我々は,目的的タスク(推論,数学,事実性,コーディング)と主観的人間の選好判断の両方に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-12-23T22:08:46Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。