論文の概要: When to Answer and When to Defer: A Decision Framework for Reliable Code Predictions
- arxiv url: http://arxiv.org/abs/2605.19369v1
- Date: Tue, 19 May 2026 05:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.134783
- Title: When to Answer and When to Defer: A Decision Framework for Reliable Code Predictions
- Title(参考訳): 答える時と定義する時 - 信頼性の高いコード予測のための決定フレームワーク
- Authors: Ravishka Rathnasuriya, Wei Yang,
- Abstract要約: この作業では、不確実性推定、モデルのキャリブレーション、およびコードモデルに対するツールベースの禁忌処理を統合する統一的なフレームワークを導入している。
提案設計では,信頼性の高い正当性確率を割り当てたり,不確実性の下で不確実性を排除したり,不確実性のあるケースを処理するための軽量なプログラム解析手順を実行することができる。
- 参考スコア(独自算出の注目度): 11.136449698197174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code language models are increasingly adopted for both understanding and generative tasks. Despite their success, these models frequently produce overconfident incorrect predictions and underconfident correct predictions, undermining their reliability in deployment. Practical deployment demands three capabilities: accurately estimating the likelihood of correctness, abstaining on uncertain predictions, and invoking external mechanisms to validate or repair abstained outputs. Existing calibration and uncertainty estimation methods, primarily developed for natural language tasks, do not readily transfer to code. Notably, post-hoc calibration techniques often reduce probability misalignment but fail to improve the ranking of predictions by correctness likelihood-a requirement for selective prediction under partial coverage. Furthermore, most approaches treat uncertainty as a passive indicator rather than an actionable signal. This work introduces a unified framework that integrates uncertainty estimation, model calibration, and tool-based abstention handling for code models. The proposed design enables models to assign reliable correctness probabilities, abstain under uncertainty, and invoke lightweight program analysis procedures to process abstained cases. By combining these components within a single deployment-oriented workflow, this framework supports risk-aware, coverage-controlled use of code models across both classification and generation settings.
- Abstract(参考訳): コード言語モデルは、理解と生成の両方に採用されている。
その成功にもかかわらず、これらのモデルはしばしば過度に信頼できない誤った予測と過度に信頼できない正確な予測を生成し、デプロイメントの信頼性を損なう。
正確に正しさを推定し、不確実な予測を棄却し、不確実なアウトプットを検証または修復するための外部メカニズムを起動する。
既存のキャリブレーションと不確実性推定手法は、主に自然言語処理のために開発されたが、コードへの転送は容易ではない。
特に、ポストホックキャリブレーション手法は、しばしば確率的ミスアライメントを減少させるが、部分的カバレッジ下での選択的予測の要件である正しさによる予測のランキングの改善には失敗する。
さらに、ほとんどのアプローチは、動作可能な信号よりも受動的指標として不確実性を扱う。
この作業では、不確実性推定、モデルのキャリブレーション、およびコードモデルに対するツールベースの禁忌処理を統合する統一的なフレームワークを導入している。
提案設計では,信頼性の高い正当性確率を割り当てたり,不確実性の下で不確実性を排除したり,不確実性のあるケースを処理するための軽量なプログラム解析手順を実行することができる。
これらのコンポーネントを単一のデプロイメント指向ワークフローに組み合わせることで、このフレームワークは、分類と生成設定の両方にわたって、リスク認識、カバレッジ管理されたコードモデルの使用をサポートする。
関連論文リスト
- Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Calibrated Probabilistic Forecasts for Arbitrary Sequences [58.54729945445505]
実際のデータストリームは、分散シフトやフィードバックループ、敵アクターによって予測不可能に変化する可能性がある。
データがどのように進化するかに関わらず、有効な不確実性推定を保証するための予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T21:46:42Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Calibrated Selective Classification [34.08454890436067]
そこで我々は,「不確か」な不確実性のある例を拒否する手法を提案する。
本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,任意のベースモデルの選択的校正誤差を改善するために,個別のセレクタネットワークを訓練する。
われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
論文 参考訳(メタデータ) (2022-08-25T13:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。