論文の概要: From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven
AI Chaining
- arxiv url: http://arxiv.org/abs/2309.15606v1
- Date: Wed, 27 Sep 2023 12:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 06:19:23.032004
- Title: From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven
AI Chaining
- Title(参考訳): 誤用から熟達まで - 知識駆動aiチェーンによるコード生成の拡張
- Authors: Xiaoxue Ren, Xinyuan Ye, Dehai Zhao, Zhenchang Xing, Xiaohu Yang
- Abstract要約: 大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。
しかし、LLMが優れたプログラミングプラクティスを欠いているため、高品質で信頼性の高いコードを生成することは、依然として恐ろしい作業である。
我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解する、知識駆動型Prompt Chainingベースのコード生成手法を提案する。
- 参考スコア(独自算出の注目度): 16.749379740049925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promising results in automatic code
generation by improving coding efficiency to a certain extent. However,
generating high-quality and reliable code remains a formidable task because of
LLMs' lack of good programming practice, especially in exception handling. In
this paper, we first conduct an empirical study and summarise three crucial
challenges of LLMs in exception handling, i.e., incomplete exception handling,
incorrect exception handling and abuse of try-catch. We then try prompts with
different granularities to address such challenges, finding fine-grained
knowledge-driven prompts works best. Based on our empirical study, we propose a
novel Knowledge-driven Prompt Chaining-based code generation approach, name
KPC, which decomposes code generation into an AI chain with iterative
check-rewrite steps and chains fine-grained knowledge-driven prompts to assist
LLMs in considering exception-handling specifications. We evaluate our
KPC-based approach with 3,079 code generation tasks extracted from the Java
official API documentation. Extensive experimental results demonstrate that the
KPC-based approach has considerable potential to ameliorate the quality of code
generated by LLMs. It achieves this through proficiently managing exceptions
and obtaining remarkable enhancements of 109.86% and 578.57% with static
evaluation methods, as well as a reduction of 18 runtime bugs in the sampled
dataset with dynamic validation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。
しかし、LLMが優れたプログラミングプラクティスを欠いているため、特に例外処理において、高品質で信頼性の高いコードを生成することは、依然として大きな課題である。
本稿では,まず,例外処理におけるLLMの3つの重要な課題,すなわち不完全例外処理,不正例外処理,トライキャッチの悪用について,実証的研究を行い,要約する。
そして、このような課題に対処するために、さまざまな粒度でプロンプトを試みます。
実験的な研究に基づいて、我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解し、LLMの例外処理仕様を考慮した支援を行う、知識駆動型プロンプトベースのコード生成手法KPCを提案する。
Javaの公式APIドキュメントから抽出した3,079のコード生成タスクで,KPCベースのアプローチを評価した。
大規模な実験結果から、KPCベースのアプローチは、LLMが生成するコードの品質を向上する可能性があることが示されている。
これは、例外を十分に管理し、静的評価手法で109.86%と578.57%の大幅な改善と、動的検証によるサンプルデータセットの18のランタイムバグの削減によって達成される。
関連論文リスト
- Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。
再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。
LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T09:40:36Z) - The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-based Code Generation [33.77058239791512]
本稿では,Large Language Models (LLMs) を用いたサンプルベースコード生成の総合的研究について述べる。
I/O例の不完全性に起因する誤りに対処するために,反復的評価フレームワークを採用する。
我々は168の多様な目標関数のベンチマークを用いて6つの最先端LCMを評価した。
論文 参考訳(メタデータ) (2024-11-11T08:05:37Z) - Seeker: Enhancing Exception Handling in Code with LLM-based Multi-Agent Approach [54.03528377384397]
現実世界のソフトウェア開発では、不適切な例外処理がコードの堅牢性と信頼性に重大な影響を与えます。
コードにおける例外処理を改善するために,大規模言語モデル (LLM) の利用について検討する。
例外処理のエキスパート開発者戦略にインスパイアされたマルチエージェントフレームワークであるSeekerを提案する。
論文 参考訳(メタデータ) (2024-10-09T14:45:45Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation [3.22798929957223]
大規模言語モデル(LLM)はコード生成を大いに促進してきたが、生成されたコードの機能的正確性を保証することは依然として課題である。
従来のバリデーション手法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。
コード検証のファーストラインフィルタとしてLLMを活用する新しいフレームワークであるCodeSiftを紹介します。
論文 参考訳(メタデータ) (2024-08-28T08:32:21Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。