論文の概要: Showing LLM-Generated Code Selectively Based on Confidence of LLMs
- arxiv url: http://arxiv.org/abs/2410.03234v1
- Date: Fri, 4 Oct 2024 08:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:28:42.642230
- Title: Showing LLM-Generated Code Selectively Based on Confidence of LLMs
- Title(参考訳): LLMの信頼度に基づくLLM生成符号の選択的表示
- Authors: Jia Li, Yuqi Zhu, Yongmin Li, Ge Li, Zhi Jin,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において印象的な能力を示しているが、誤ったプログラムを生成する可能性がある。
これらの誤ったプログラムを開発者に示すことは、開発者のエネルギーを無駄にし、セキュリティリスクを導入します。
我々は,新しいLLMベースのコード生成手法であるHonestCoderを提案する。
- 参考スコア(独自算出の注目度): 44.23673533981599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown impressive abilities in code generation, but they may generate erroneous programs. Reading a program takes ten times longer than writing it. Showing these erroneous programs to developers will waste developers' energies and introduce security risks to software. To address the above limitations, we propose HonestCoder, a novel LLM-based code generation approach. HonestCoder selectively shows the generated programs to developers based on LLMs' confidence. The confidence provides valuable insights into the correctness of generated programs. To achieve this goal, we propose a novel approach to estimate LLMs' confidence in code generation. It estimates confidence by measuring the multi-modal similarity between LLMs-generated programs. We collect and release a multilingual benchmark named TruthCodeBench, which consists of 2,265 samples and covers two popular programming languages (i.e., Python and Java). We apply HonestCoder to four popular LLMs (e.g., DeepSeek-Coder and Code Llama) and evaluate it on TruthCodeBench. Based on the experiments, we obtain the following insights. (1) HonestCoder can effectively estimate LLMs' confidence and accurately determine the correctness of generated programs. For example, HonestCoder outperforms the state-of-the-art baseline by 27.79% in AUROC and 63.74% in AUCPR. (2) HonestCoder can decrease the number of erroneous programs shown to developers. Compared to eight baselines, it can show more correct programs and fewer erroneous programs to developers. (3) Compared to showing code indiscriminately, HonestCoder only adds slight time overhead (approximately 0.4 seconds per requirement). (4) We discuss future directions to facilitate the application of LLMs in software development. We hope this work can motivate broad discussions about measuring the reliability of LLMs' outputs in performing code-related tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において印象的な能力を示しているが、誤ったプログラムを生成する可能性がある。
プログラムを読むのに10倍の時間がかかる。
これらの誤ったプログラムを開発者に示すことは、開発者のエネルギーを無駄にし、ソフトウェアにセキュリティリスクを導入します。
上記の制限に対処するため,新しいLLMベースのコード生成手法であるHonestCoderを提案する。
HonestCoder は LLM の信頼性に基づいて生成したプログラムを開発者に選択的に表示する。
信頼性は、生成されたプログラムの正確性に関する貴重な洞察を提供する。
この目的を達成するために,LLMのコード生成に対する信頼度を推定する新しい手法を提案する。
LLM 生成プログラム間のマルチモーダル類似度を測定することで信頼性を推定する。
TruthCodeBenchは2,265のサンプルからなり、2つの人気のあるプログラミング言語(PythonとJava)をカバーする。
我々は、HonestCoderを4つの人気のあるLLM(例えば、DeepSeek-CoderとCode Llama)に適用し、TruthCodeBenchで評価する。
実験の結果,以下の知見を得た。
1)HonestCoderはLLMの信頼性を効果的に推定し,生成したプログラムの正確性を正確に判定する。
例えば、HoestCoderは、AUROCでは27.79%、AUCPRでは63.74%で最先端のベースラインを上回っている。
2) HonestCoderは、開発者が示す誤ったプログラムの数を減らすことができる。
8つのベースラインと比較して、より正しいプログラムと間違ったプログラムを開発者に示すことができる。
(3) コードが無差別に表示されるのと比較して、HoestCoderはわずかな時間オーバーヘッド(要求あたり約0.4秒)しか追加しない。
(4)ソフトウェア開発におけるLCMの活用を促進するための今後の方向性について論じる。
コード関連タスクの実行において,LCMのアウトプットの信頼性を測る上で,この取り組みが広範な議論の動機となることを願っている。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。
まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。
そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文 参考訳(メタデータ) (2024-04-09T05:59:39Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? [10.249771123421432]
我々は,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じタスク記述に係わるかどうかを検討する。
手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。
この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2023-06-02T00:57:03Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。