論文の概要: Quality and Trust in LLM-generated Code
- arxiv url: http://arxiv.org/abs/2402.02047v1
- Date: Sat, 3 Feb 2024 05:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:24:56.659014
- Title: Quality and Trust in LLM-generated Code
- Title(参考訳): llm生成コードの品質と信頼性
- Authors: Claudio Spiess, David Gros, Kunal Suresh Pai, Michael Pradel, Md
Rafiqul Islam Rabin, Susmit Jha, Prem Devanbu, Toufique Ahmed
- Abstract要約: コード生成モデルの正確性を評価するためのフレームワークを開発する。
私たちのコントリビューションは、言語モデルによって生成された現在のコードの使用において、より良いキャリブレーションの意思決定につながるでしょう。
- 参考スコア(独自算出の注目度): 24.42843931669106
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning models are widely used but can also often be wrong. Users
would benefit from a reliable indication of whether a given output from a given
model should be trusted, so a rational decision can be made whether to use the
output or not. For example, outputs can be associated with a confidence
measure; if this confidence measure is strongly associated with likelihood of
correctness, then the model is said to be well-calibrated. In this case, for
example, high-confidence outputs could be safely accepted, and low-confidence
outputs rejected.
Calibration has so far been studied in non-generative (e.g., classification)
settings, especially in Software Engineering. However, generated code can quite
often be wrong: Developers need to know when they should e.g., directly use,
use after careful review, or discard model-generated code; thus Calibration is
vital in generative settings. However, the notion of correctness of generated
code is non-trivial, and thus so is Calibration. In this paper we make several
contributions. We develop a framework for evaluating the Calibration of
code-generating models. We consider several tasks, correctness criteria,
datasets, and approaches, and find that by and large generative code models are
not well-calibrated out of the box. We then show how Calibration can be
improved, using standard methods such as Platt scaling. Our contributions will
lead to better-calibrated decision-making in the current use of code generated
by language models, and offers a framework for future research to further
improve calibration methods for generative models in Software Engineering.
- Abstract(参考訳): 機械学習モデルは広く使われているが、しばしば間違っていることもある。
ユーザは、与えられたモデルからのアウトプットを信頼すべきかどうかの信頼できる表示から恩恵を受けるので、アウトプットを使用するかどうかを合理的に判断することができる。
例えば、出力は信頼測度と結びつくことができ、もしこの信頼測度が正しさの確率と強く関連しているなら、そのモデルはよく校正されていると言われる。
この場合、例えば、高信頼出力は安全に受け入れられ、低信頼出力は拒否される。
キャリブレーションは、これまで、特にソフトウェア工学において、非生成的(例えば分類)な設定で研究されてきた。
しかし、生成されたコードは、しばしば間違っている: 開発者は、いつ、直接の使用、慎重にレビューした後の使用、またはモデル生成コードを捨てるべきかを知る必要がある; キャリブレーションは、生成設定において不可欠である。
しかし、生成されたコードの正確性の概念は非自明であり、キャリブレーションも同様である。
本稿ではいくつかの貢献を行う。
コード生成モデルのキャリブレーションを評価するフレームワークを開発した。
我々は、いくつかのタスク、正確性基準、データセット、そしてアプローチを検討し、大きな生成型コードモデルが最初からうまく調整されていないことを見つける。
次に, platt scaling などの標準手法を用いて, キャリブレーションの改善方法を示す。
私たちのコントリビューションは、言語モデルが生成するコードの現在の使用において、より良いキャリブレーションによる意思決定につながり、ソフトウェア工学における生成モデルの校正方法をさらに改善するための将来の研究のためのフレームワークを提供するでしょう。
関連論文リスト
- Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Class-wise and reduced calibration methods [0.0]
キャリブレーションの削減により、元の問題をより単純なものに変換する方法を示す。
第2に,ニューラル崩壊という現象に基づいて,クラスワイドキャリブレーション手法を提案する。
この2つの手法を併用すると、予測とクラスごとの校正誤差を低減する強力なツールであるクラス単位での校正アルゴリズムが実現される。
論文 参考訳(メタデータ) (2022-10-07T17:13:17Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Calibrating Predictions to Decisions: A Novel Approach to Multi-Class
Calibration [118.26862029820447]
我々は、下流の意思決定者に対して、予測された分布と真の分布を区別不能にする必要がある新しい概念、即時校正を導入します。
決定キャリブレーションは、皮膚病変の判定と、現代のニューラルネットワークを用いたImageNet分類を改善する。
論文 参考訳(メタデータ) (2021-07-12T20:17:28Z) - Meta-Cal: Well-controlled Post-hoc Calibration by Ranking [23.253020991581963]
ポストホックキャリブレーションは、モデルを再キャリブレーションするためのテクニックであり、その目標はキャリブレーションマップを学ぶことです。
既存のアプローチは主に、キャリブレーション誤差の低いキャリブレーションマップの構築に重点を置いている。
校正誤差の低いキャリブレータは、実際には有用であるとは限らないため、制約下でのマルチクラス分類のポストホックキャリブレーションを研究します。
論文 参考訳(メタデータ) (2021-05-10T12:00:54Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z) - Better Classifier Calibration for Small Data Sets [0.0]
キャリブレーションのためのデータ生成により,キャリブレーションアルゴリズムの性能が向上することを示す。
提案手法は計算コストを増大させるが、主なユースケースは小さなデータセットであるので、この余分な計算コストは重要ではない。
論文 参考訳(メタデータ) (2020-02-24T12:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。