Fugu-MT 論文翻訳(概要): Leveraging Print Debugging to Improve Code Generation in Large Language Models

論文の概要: Leveraging Print Debugging to Improve Code Generation in Large Language Models

arxiv url: http://arxiv.org/abs/2401.05319v1
Date: Wed, 10 Jan 2024 18:37:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 13:56:06.691592
Title: Leveraging Print Debugging to Improve Code Generation in Large Language Models
Title（参考訳）: 印刷デバッグを活用して大規模言語モデルにおけるコード生成を改善する
Authors: Xueyu Hu, Kun Kuang, Jiankai Sun, Hongxia Yang, Fei Wu
Abstract要約: 大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
参考スコア（独自算出の注目度）: 63.63160583432348
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have made significant progress in code generation tasks, but their performance in tackling programming problems with complex data structures and algorithms remains suboptimal. To address this issue, we propose an in-context learning approach that guides LLMs to debug by using a "print debugging" method, which involves inserting print statements to trace and analysing logs for fixing the bug. We collect a Leetcode problem dataset and evaluate our method using the Leetcode online judging system. Experiments with GPT-4 demonstrate the effectiveness of our approach, outperforming rubber duck debugging in easy and medium-level Leetcode problems by 1.5% and 17.9%.
Abstract（参考訳）: 大規模言語モデル (LLM) はコード生成タスクにおいて大きな進歩を遂げているが、複雑なデータ構造やアルゴリズムでプログラミング問題に対処する際の性能は依然として最適である。この問題に対処するために,印刷文をトレースに挿入し,バグ修正のためにログを解析する「プリントデバッグ」手法を用いて,LLMをデバッグするためのコンテキスト内学習手法を提案する。我々はLeetcode問題データセットを収集し,オンライン判定システムを用いて手法を評価する。 GPT-4を用いた実験では, ゴム製アヒルのデバッグ性能を1.5%, 17.9%向上した。

関連論文リスト

Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
VeriDebug: A Unified LLM for Verilog Debugging via Contrastive Embedding and Guided Correction [36.69082579950107]
コントラスト表現とガイド付き修正機能を統合するアプローチであるVeri Debugを提案する。我々のモデルは、既存のオープンソースSOTA 11.3から大幅に改善されたバグ修正(Acc1)において64.7の精度を実現している。この性能はオープンソースの代替品より優れているだけでなく、GPT-3.5-turbo (36.6)のような大型のクローズドソースモデルよりも優れている。
論文参考訳（メタデータ） (2025-04-27T04:09:48Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる In-Context Contrastive Decoding (ICCD)を導入する。 ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文参考訳（メタデータ） (2025-02-19T14:04:46Z)
Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。 ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文参考訳（メタデータ） (2024-09-06T10:03:49Z)
Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement [29.667170755786508]
本稿ではまず,大規模言語モデル(LLM)のデバッグ能力を評価するためのベンチマークであるEVALを紹介する。 Masterは、教師付き微調整のための定義されたタスクに従って洗練されたコードデータを生成する。最後に、Code Learnerは、批評家として機能し、解決できない発生した問題を予約する。
論文参考訳（メタデータ） (2024-08-09T11:35:44Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
LLM4TDD: Best Practices for Test Driven Development Using Large Language Models [0.76146285961466]
本稿では,LLM4TDDの概念を考察し,テスト駆動開発手法を用いて大規模言語モデルを用いてコードを反復的に生成する手法を提案する。本稿では,ChatGPTとLeetCodeのコーディング問題を用いて実験的な評価を行い,LLM4TDDの有効性に対するテスト,プロンプト,問題属性の影響について検討する。
論文参考訳（メタデータ） (2023-12-07T20:37:54Z)
Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文参考訳（メタデータ） (2023-09-17T00:29:32Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。