論文の概要: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
- arxiv url: http://arxiv.org/abs/2511.02197v1
- Date: Tue, 04 Nov 2025 02:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.778025
- Title: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
- Title(参考訳): Oysterのオープン: LLMにおけるコード推論信頼の実証評価と改善
- Authors: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の信頼性解析と拡張フレームワークを提案する。
本研究は,各タスクにまたがるメインストリームLLMの信頼性に関する総合的な実証的研究を行う。
さらに,信頼度を向上させるために,迅速な戦略最適化や数学的キャリブレーションなどの手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 16.02000925637464
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
- Abstract(参考訳): コードインテリジェンス分野における大規模言語モデル(LLM)の広範な適用により、コード推論タスクにおける出力の信頼性と制御性に注意が払われている。
信頼度推定は、これらの側面を評価するのに効果的で便利なアプローチである。
本稿では,コード推論タスクに適したLCMの信頼性解析と拡張フレームワークを提案する。
本研究は,各タスクにまたがる主要なLCMの信頼性に関する総合的な実証的研究を行い,信頼度を向上させるために,迅速な戦略最適化や数学的キャリブレーション(例えば,プラットスケーリング)といった手法の有効性を検証した。
以上の結果から,DeepSeek-Reasonerは,ECE,Brier Score,Performance Scoreでそれぞれ0.680$,0.636$,13.652$など,さまざまなタスクで最高のパフォーマンスを実現していることがわかった。
再評価のプロンプト戦略とPlatt Scalingを組み合わせたハイブリッド戦略は、上記の3つの指標における当初のパフォーマンスよりも0.541$、0.628$、および15.084$の改善を達成している。
これらの結果から, 推理能力を有するモデルでは信頼性が向上し, ハイブリッド戦略が信頼性の向上に最も有効であることが示唆された。
一方、タスクの複雑さ、モデルスケール、戦略が信頼性に与える影響を解明し、複雑な推論タスクにおける現在のLCMの信頼性は、まだ改善の余地が十分にあることを強調する。
本研究は、LCM支援ソフトウェアエンジニアリングにおける信頼性の応用に関する研究基盤と技術的基準を提供するだけでなく、信頼性メカニズムの将来の最適化とエンジニアリング展開の方法も指摘する。
関連論文リスト
- Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Enhancing Uncertainty Estimation in LLMs with Expectation of Aggregated Internal Belief [6.1929548590367505]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおいて顕著な成功を収めてきたが、しばしば過剰な自信を示し、妥当で不正確な答えを生み出している。
この過信は、信頼性の高い不確実性推定と安全なデプロイメントに重大な課題をもたらす。
本研究では,LLMの内部隠蔽状態を利用した自己評価に基づくキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-09-01T15:50:10Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文 参考訳(メタデータ) (2025-02-17T11:11:09Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。