論文の概要: Does In-IDE Calibration of Large Language Models work at Scale?
- arxiv url: http://arxiv.org/abs/2510.22614v1
- Date: Sun, 26 Oct 2025 10:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.29641
- Title: Does In-IDE Calibration of Large Language Models work at Scale?
- Title(参考訳): 大規模言語モデルのIDE内校正は大規模に機能するのか?
- Authors: Roham Koohestani, Agnia Sergeyuk, David Gros, Claudio Spiess, Sergey Titov, Prem Devanbu, Maliheh Izadi,
- Abstract要約: 内部モデル信頼性のポストホック校正は、確率を許容可能性尺度に合わせることを目的としている。
オープンソースのモデルのキャリブレーション重み付けに使用できる,スケーラブルで柔軟なキャリブレーションフレームワークを開発した。
2400万人以上の現実世界の開発者インタラクションを大規模に分析した結果、プラッツスケーリングに基づく一般的なポストホックキャリブレーションモデルでは、平均してモデル信頼性信号の信頼性が向上しないことがわかった。
- 参考スコア(独自算出の注目度): 4.707628898226459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The introduction of large language models into integrated development environments (IDEs) is revolutionizing software engineering, yet it poses challenges to the usefulness and reliability of Artificial Intelligence-generated code. Post-hoc calibration of internal model confidences aims to align probabilities with an acceptability measure. Prior work suggests calibration can improve alignment, but at-scale evidence is limited. In this work, we investigate the feasibility of applying calibration of code models to an in-IDE context. We study two aspects of the problem: (1) the technical method for implementing confidence calibration and improving the reliability of code generation models, and (2) the human-centered design principles for effectively communicating reliability signal to developers. First, we develop a scalable and flexible calibration framework which can be used to obtain calibration weights for open-source models using any dataset, and evaluate whether calibrators improve the alignment between model confidence and developer acceptance behavior. Through a large-scale analysis of over 24 million real-world developer interactions across multiple programming languages, we find that a general, post-hoc calibration model based on Platt-scaling does not, on average, improve the reliability of model confidence signals. We also find that while dynamically personalizing calibration to individual users can be effective, its effectiveness is highly dependent on the volume of user interaction data. Second, we conduct a multi-phase design study with 3 expert designers and 153 professional developers, combining scenario-based design, semi-structured interviews, and survey validation, revealing a clear preference for presenting reliability signals via non-numerical, color-coded indicators within the in-editor code generation workflow.
- Abstract(参考訳): 大規模言語モデルを統合開発環境(IDE)に導入することは、ソフトウェア工学に革命をもたらすが、人工知能が生成するコードの有用性と信頼性に課題をもたらす。
内部モデル信頼性のポストホック校正は、確率を許容可能性尺度に合わせることを目的としている。
以前の研究はキャリブレーションがアライメントを改善することを示唆していたが、大規模な証拠は限られている。
本研究では,コードモデルのキャリブレーションをIDE内コンテキストに適用できる可能性について検討する。
本研究では,(1)信頼度校正とコード生成モデルの信頼性向上のための技術手法,(2)信頼性信号を開発者へ効果的に伝達するための人間中心設計原則について検討する。
まず,任意のデータセットを用いて,オープンソースモデルのキャリブレーション重みを求めるのに使用可能な,スケーラブルで柔軟なキャリブレーションフレームワークを開発し,キャリブレータがモデルの信頼性と開発者の受け入れ動作の整合性を改善するかどうかを評価する。
複数のプログラミング言語をまたいだ2400万以上の実世界の開発者インタラクションを大規模に分析した結果、プラッツスケーリングに基づく一般的なポストホックキャリブレーションモデルでは、平均してモデル信頼性信号の信頼性が向上しないことがわかった。
また,個々のユーザに対するキャリブレーションを動的にパーソナライズすることは有効であるが,その有効性はユーザインタラクションデータの量に大きく依存している。
第2に、シナリオベース設計、半構造化インタビュー、調査検証を組み合わせることで、3人のエキスパートデザイナーと153人のプロフェッショナル開発者によるマルチフェーズ設計研究を行い、インエディタコード生成ワークフロー内で、非数値的、カラーコード化されたインジケータによる信頼性信号の提示を明らかにした。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Balancing Two Classifiers via A Simplex ETF Structure for Model Calibration [34.52946891778497]
ディープニューラルネットワーク(DNN)は、さまざまな領域にわたる最先端のパフォーマンスを実証している。
彼らはしばしばキャリブレーションの問題に直面するが、特に自動運転やヘルスケアといった安全上重要な応用においてである。
近年,分類器の観点からモデルキャリブレーションの改善が試みられている。
論文 参考訳(メタデータ) (2025-04-14T09:09:01Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。