論文の概要: Quality and Trust in LLM-generated Code
- arxiv url: http://arxiv.org/abs/2402.02047v1
- Date: Sat, 3 Feb 2024 05:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:24:56.659014
- Title: Quality and Trust in LLM-generated Code
- Title(参考訳): llm生成コードの品質と信頼性
- Authors: Claudio Spiess, David Gros, Kunal Suresh Pai, Michael Pradel, Md
Rafiqul Islam Rabin, Susmit Jha, Prem Devanbu, Toufique Ahmed
- Abstract要約: コード生成モデルの正確性を評価するためのフレームワークを開発する。
私たちのコントリビューションは、言語モデルによって生成された現在のコードの使用において、より良いキャリブレーションの意思決定につながるでしょう。
- 参考スコア(独自算出の注目度): 24.42843931669106
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning models are widely used but can also often be wrong. Users
would benefit from a reliable indication of whether a given output from a given
model should be trusted, so a rational decision can be made whether to use the
output or not. For example, outputs can be associated with a confidence
measure; if this confidence measure is strongly associated with likelihood of
correctness, then the model is said to be well-calibrated. In this case, for
example, high-confidence outputs could be safely accepted, and low-confidence
outputs rejected.
Calibration has so far been studied in non-generative (e.g., classification)
settings, especially in Software Engineering. However, generated code can quite
often be wrong: Developers need to know when they should e.g., directly use,
use after careful review, or discard model-generated code; thus Calibration is
vital in generative settings. However, the notion of correctness of generated
code is non-trivial, and thus so is Calibration. In this paper we make several
contributions. We develop a framework for evaluating the Calibration of
code-generating models. We consider several tasks, correctness criteria,
datasets, and approaches, and find that by and large generative code models are
not well-calibrated out of the box. We then show how Calibration can be
improved, using standard methods such as Platt scaling. Our contributions will
lead to better-calibrated decision-making in the current use of code generated
by language models, and offers a framework for future research to further
improve calibration methods for generative models in Software Engineering.
- Abstract(参考訳): 機械学習モデルは広く使われているが、しばしば間違っていることもある。
ユーザは、与えられたモデルからのアウトプットを信頼すべきかどうかの信頼できる表示から恩恵を受けるので、アウトプットを使用するかどうかを合理的に判断することができる。
例えば、出力は信頼測度と結びつくことができ、もしこの信頼測度が正しさの確率と強く関連しているなら、そのモデルはよく校正されていると言われる。
この場合、例えば、高信頼出力は安全に受け入れられ、低信頼出力は拒否される。
キャリブレーションは、これまで、特にソフトウェア工学において、非生成的(例えば分類)な設定で研究されてきた。
しかし、生成されたコードは、しばしば間違っている: 開発者は、いつ、直接の使用、慎重にレビューした後の使用、またはモデル生成コードを捨てるべきかを知る必要がある; キャリブレーションは、生成設定において不可欠である。
しかし、生成されたコードの正確性の概念は非自明であり、キャリブレーションも同様である。
本稿ではいくつかの貢献を行う。
コード生成モデルのキャリブレーションを評価するフレームワークを開発した。
我々は、いくつかのタスク、正確性基準、データセット、そしてアプローチを検討し、大きな生成型コードモデルが最初からうまく調整されていないことを見つける。
次に, platt scaling などの標準手法を用いて, キャリブレーションの改善方法を示す。
私たちのコントリビューションは、言語モデルが生成するコードの現在の使用において、より良いキャリブレーションによる意思決定につながり、ソフトウェア工学における生成モデルの校正方法をさらに改善するための将来の研究のためのフレームワークを提供するでしょう。
関連論文リスト
- Reassessing How to Compare and Improve the Calibration of Machine Learning Models [7.183341902583164]
結果の予測確率がモデル予測に基づいてその結果の観測周波数と一致した場合、機械学習モデルを校正する。
キャリブレーションと予測の指標が追加の一般化の指標を伴わない限り、最先端のように見えるような簡単な再校正手法が存在することを示す。
論文 参考訳(メタデータ) (2024-06-06T13:33:45Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Estimating Expected Calibration Errors [1.52292571922932]
確率論的予測の不確実性は、モデルが人間の意思決定をサポートするために使用される場合、重要な問題である。
ほとんどのモデルは本質的に十分に校正されていないため、決定スコアは後続確率と一致しない。
我々は、$ECE$推定器の品質を定量化するための実証的な手順を構築し、それを使用して、異なる設定で実際にどの推定器を使用するべきかを決定する。
論文 参考訳(メタデータ) (2021-09-08T08:00:23Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。