論文の概要: Leveraging Print Debugging to Improve Code Generation in Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.05319v1
- Date: Wed, 10 Jan 2024 18:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 13:56:06.691592
- Title: Leveraging Print Debugging to Improve Code Generation in Large Language
Models
- Title(参考訳): 印刷デバッグを活用して大規模言語モデルにおけるコード生成を改善する
- Authors: Xueyu Hu, Kun Kuang, Jiankai Sun, Hongxia Yang, Fei Wu
- Abstract要約: 大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
- 参考スコア(独自算出の注目度): 63.63160583432348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant progress in code
generation tasks, but their performance in tackling programming problems with
complex data structures and algorithms remains suboptimal. To address this
issue, we propose an in-context learning approach that guides LLMs to debug by
using a "print debugging" method, which involves inserting print statements to
trace and analysing logs for fixing the bug. We collect a Leetcode problem
dataset and evaluate our method using the Leetcode online judging system.
Experiments with GPT-4 demonstrate the effectiveness of our approach,
outperforming rubber duck debugging in easy and medium-level Leetcode problems
by 1.5% and 17.9%.
- Abstract(参考訳): 大規模言語モデル (LLM) はコード生成タスクにおいて大きな進歩を遂げているが、複雑なデータ構造やアルゴリズムでプログラミング問題に対処する際の性能は依然として最適である。
この問題に対処するために,印刷文をトレースに挿入し,バグ修正のためにログを解析する「プリントデバッグ」手法を用いて,LLMをデバッグするためのコンテキスト内学習手法を提案する。
我々はLeetcode問題データセットを収集し,オンライン判定システムを用いて手法を評価する。
GPT-4を用いた実験では, ゴム製アヒルのデバッグ性能を1.5%, 17.9%向上した。
関連論文リスト
- StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [89.13051256657995]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - LLM4TDD: Best Practices for Test Driven Development Using Large Language
Models [0.76146285961466]
本稿では,LLM4TDDの概念を考察し,テスト駆動開発手法を用いて大規模言語モデルを用いてコードを反復的に生成する手法を提案する。
本稿では,ChatGPTとLeetCodeのコーディング問題を用いて実験的な評価を行い,LLM4TDDの有効性に対するテスト,プロンプト,問題属性の影響について検討する。
論文 参考訳(メタデータ) (2023-12-07T20:37:54Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven
AI Chaining [16.749379740049925]
大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。
しかし、LLMが優れたプログラミングプラクティスを欠いているため、高品質で信頼性の高いコードを生成することは、依然として恐ろしい作業である。
我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解する、知識駆動型Prompt Chainingベースのコード生成手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T12:09:07Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。