論文の概要: Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation
- arxiv url: http://arxiv.org/abs/2309.16120v2
- Date: Wed, 28 Feb 2024 07:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:42:01.977760
- Title: Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation
- Title(参考訳): コード生成改善のための大規模言語モデルにおけるテストケース駆動プログラミング理解
- Authors: Zhao Tian, Junjie Chen, Xiangyu Zhang
- Abstract要約: muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
- 参考スコア(独自算出の注目度): 15.166827643436346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation is to automatically generate source code conforming to a
given programming specification, which has received extensive attention
especially with the development of large language models (LLMs). Due to the
inherent difficulty of code generation, the code generated by LLMs may be not
aligned with the specification. To improve the performance of LLMs in code
generation, some thought-eliciting prompting techniques have been proposed to
guide LLMs for specification understanding. However, it is still hard to
produce correct understanding for complicated programming problems, leading to
unsatisfactory code generation performance. Also, some feedback-based prompting
techniques have been proposed to fix incorrect code using error messages
produced by test execution. However, when the generated code deviates
significantly from the ground truth, they encounter difficulties in improving
performance based on such coarse-grained information.
In this work, we propose a novel prompting technique, called {\mu}FiX, to
improve the code generation performance of LLMs by devising both sophisticated
thought-eliciting prompting and feedback-based prompting and making the first
exploration on their synergy. It first exploits test case analysis to obtain
specification understanding and enables a self-improvement process to identify
and fix the misunderstanding in the thought-eliciting prompting phase. {\mu}FiX
further fixes the specification understanding towards the direction reducing
the gap between the provided understanding and the actual understanding
implicitly utilized by LLMs for code generation in the feedback-based prompting
phase. By obtaining as correct understanding as possible with {\mu}FiX, the
code generation performance of LLMs can be largely improved.
- Abstract(参考訳): コード生成は、与えられたプログラム仕様に従ってソースコードを自動的に生成することであり、特に大規模言語モデル(LLM)の開発で広く注目を集めている。
コード生成が本質的に困難であるため、LCMが生成したコードは仕様と一致しない可能性がある。
コード生成におけるLLMの性能向上のために,仕様理解のためのLLMをガイドする思考支援技術が提案されている。
しかし、複雑なプログラミング問題に対する正確な理解を得るのは難しいため、不満足なコード生成性能につながる。
また、テスト実行によって生成されたエラーメッセージを使用して間違ったコードを修正するためのフィードバックベースのプロンプト手法も提案されている。
しかし、生成されたコードが真理から著しく逸脱すると、そのような粗い情報に基づいて性能を改善することが困難になる。
そこで本研究では,洗練された思考誘発プロンプトとフィードバックに基づくプロンプトの両方を考案し,その相乗効果を初めて探求することにより,llmのコード生成性能を向上させるための新しいプロンプト手法である {\mu}fixを提案する。
まず、テストケース分析を利用して仕様理解を得、自己改善プロセスによって思考誘発促進フェーズにおける誤解を識別し、修正することができる。
さらに、フィードバックベースのプロンプトフェーズにおけるコード生成にLLMが暗黙的に用いている実際の理解とのギャップを減らす方向に向け、仕様理解をさらに修正する。
可能な限り正確な理解を得ることにより、LLMのコード生成性能を大幅に改善することができる。
関連論文リスト
- Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Function-constrained Program Synthesis [12.55507214959886]
大規模言語モデル(LLM)は、開発環境で利用可能なすべてのコードを描画することで、リアルタイムでコードを生成することができる。
現在のシステムには効果的なリカバリ方法が欠如しており、ユーザーは十分な解に到達するまで、修正されたプロンプトでモデルを反復的に再起動せざるを得ない。
提案手法は,コード生成を明示的な関数集合に制約し,自動生成されたサブ関数を通じて失敗した試行からのリカバリを可能にする。
論文 参考訳(メタデータ) (2023-11-27T02:55:34Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。