論文の概要: From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven
AI Chaining
- arxiv url: http://arxiv.org/abs/2309.15606v1
- Date: Wed, 27 Sep 2023 12:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 06:19:23.032004
- Title: From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven
AI Chaining
- Title(参考訳): 誤用から熟達まで - 知識駆動aiチェーンによるコード生成の拡張
- Authors: Xiaoxue Ren, Xinyuan Ye, Dehai Zhao, Zhenchang Xing, Xiaohu Yang
- Abstract要約: 大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。
しかし、LLMが優れたプログラミングプラクティスを欠いているため、高品質で信頼性の高いコードを生成することは、依然として恐ろしい作業である。
我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解する、知識駆動型Prompt Chainingベースのコード生成手法を提案する。
- 参考スコア(独自算出の注目度): 16.749379740049925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promising results in automatic code
generation by improving coding efficiency to a certain extent. However,
generating high-quality and reliable code remains a formidable task because of
LLMs' lack of good programming practice, especially in exception handling. In
this paper, we first conduct an empirical study and summarise three crucial
challenges of LLMs in exception handling, i.e., incomplete exception handling,
incorrect exception handling and abuse of try-catch. We then try prompts with
different granularities to address such challenges, finding fine-grained
knowledge-driven prompts works best. Based on our empirical study, we propose a
novel Knowledge-driven Prompt Chaining-based code generation approach, name
KPC, which decomposes code generation into an AI chain with iterative
check-rewrite steps and chains fine-grained knowledge-driven prompts to assist
LLMs in considering exception-handling specifications. We evaluate our
KPC-based approach with 3,079 code generation tasks extracted from the Java
official API documentation. Extensive experimental results demonstrate that the
KPC-based approach has considerable potential to ameliorate the quality of code
generated by LLMs. It achieves this through proficiently managing exceptions
and obtaining remarkable enhancements of 109.86% and 578.57% with static
evaluation methods, as well as a reduction of 18 runtime bugs in the sampled
dataset with dynamic validation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。
しかし、LLMが優れたプログラミングプラクティスを欠いているため、特に例外処理において、高品質で信頼性の高いコードを生成することは、依然として大きな課題である。
本稿では,まず,例外処理におけるLLMの3つの重要な課題,すなわち不完全例外処理,不正例外処理,トライキャッチの悪用について,実証的研究を行い,要約する。
そして、このような課題に対処するために、さまざまな粒度でプロンプトを試みます。
実験的な研究に基づいて、我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解し、LLMの例外処理仕様を考慮した支援を行う、知識駆動型プロンプトベースのコード生成手法KPCを提案する。
Javaの公式APIドキュメントから抽出した3,079のコード生成タスクで,KPCベースのアプローチを評価した。
大規模な実験結果から、KPCベースのアプローチは、LLMが生成するコードの品質を向上する可能性があることが示されている。
これは、例外を十分に管理し、静的評価手法で109.86%と578.57%の大幅な改善と、動的検証によるサンプルデータセットの18のランタイムバグの削減によって達成される。
関連論文リスト
- Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - Guided Code Generation with LLMs: A Multi-Agent Framework for Complex Code Tasks [1.9198713957364215]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な機能を示している。
複雑な、長いコンテキストプログラミングの課題に対処する上で、それらは重大な制限に直面します。
「案内コード生成のための新しいエージェント・フレームワーク」について紹介する。
論文 参考訳(メタデータ) (2025-01-11T19:21:53Z) - The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-based Code Generation [33.77058239791512]
本稿では,Large Language Models (LLMs) を用いたサンプルベースコード生成の総合的研究について述べる。
I/O例の不完全性に起因する誤りに対処するために,反復的評価フレームワークを採用する。
我々は168の多様な目標関数のベンチマークを用いて6つの最先端LCMを評価した。
論文 参考訳(メタデータ) (2024-11-11T08:05:37Z) - Seeker: Enhancing Exception Handling in Code with LLM-based Multi-Agent Approach [54.03528377384397]
現実世界のソフトウェア開発では、不適切な例外処理がコードの堅牢性と信頼性に重大な影響を与えます。
コードにおける例外処理を改善するために,大規模言語モデル (LLM) の利用について検討する。
例外処理のエキスパート開発者戦略にインスパイアされたマルチエージェントフレームワークであるSeekerを提案する。
論文 参考訳(メタデータ) (2024-10-09T14:45:45Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation [3.22798929957223]
大規模言語モデル(LLM)はコード生成を大いに促進してきたが、生成されたコードの機能的正確性を保証することは依然として課題である。
従来のバリデーション手法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。
コード検証のファーストラインフィルタとしてLLMを活用する新しいフレームワークであるCodeSiftを紹介します。
論文 参考訳(メタデータ) (2024-08-28T08:32:21Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。