Fugu-MT 論文翻訳(概要): Training LLMs to Better Self-Debug and Explain Code

論文の概要: Training LLMs to Better Self-Debug and Explain Code

arxiv url: http://arxiv.org/abs/2405.18649v1
Date: Tue, 28 May 2024 23:20:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 21:23:36.515965
Title: Training LLMs to Better Self-Debug and Explain Code
Title（参考訳）: LLMをトレーニングして自己デバッグと説明的コードを改善する
Authors: Nan Jiang, Xiaopeng Li, Shiqi Wang, Qiang Zhou, Soneya Binta Hossain, Baishakhi Ray, Varun Kumar, Xiaofei Ma, Anoop Deoras,
Abstract要約: LLMの自己ソース能力を大幅に向上するトレーニングフレームワークを提案する。コード説明と改良のための高品質なデータセットを収集する自動パイプラインを提案する。我々は、新しい報酬設計で、成功と失敗の軌跡の両方について、教師付き微調整(SFT)およびさらに強化学習(RL)を行う。
参考スコア（独自算出の注目度）: 36.604898865514365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the domain of code generation, self-debugging is crucial. It allows LLMs to refine their generated code based on execution feedback. This is particularly important because generating correct solutions in one attempt proves challenging for complex tasks. Prior works on self-debugging mostly focus on prompting methods by providing LLMs with few-shot examples, which work poorly on small open-sourced LLMs. In this work, we propose a training framework that significantly improves self-debugging capability of LLMs. Intuitively, we observe that a chain of explanations on the wrong code followed by code refinement helps LLMs better analyze the wrong code and do refinement. We thus propose an automated pipeline to collect a high-quality dataset for code explanation and refinement by generating a number of explanations and refinement trajectories and filtering via execution verification. We perform supervised fine-tuning (SFT) and further reinforcement learning (RL) on both success and failure trajectories with a novel reward design considering code explanation and refinement quality. SFT improves the pass@1 by up to 15.92% and pass@10 by 9.30% over four benchmarks. RL training brings additional up to 3.54% improvement on pass@1 and 2.55% improvement on pass@10. The trained LLMs show iterative refinement ability, and can keep refining code continuously. Lastly, our human evaluation shows that the LLMs trained with our framework generate more useful code explanations and help developers better understand bugs in source code.
Abstract（参考訳）: コード生成の分野では、自己デバッグが重要です。 LLMは実行フィードバックに基づいて生成されたコードを洗練することができる。なぜなら、1回の試行で正しい解を生成することは、複雑なタスクに挑戦することを証明しているからである。自己デバッグに関する以前の作業は主に、小さなオープンソースLLMではうまく動作しない、いくつかの例でLLMを提供することによって、メソッドのプロンプトに重点を置いていた。本研究では,LLMの自己デバッグ能力を大幅に向上させるトレーニングフレームワークを提案する。直感的には、間違ったコードに対する一連の説明とコードの改良が、LLMが間違ったコードを分析し、改善するのに役立ちます。そこで本稿では,コード説明や洗練のための高品質なデータセットを自動で収集するパイプラインを提案する。コード説明と改良品質を考慮した新たな報酬設計により, 成功軌道と失敗軌道の両面において, 教師付き微調整(SFT)と強化学習(RL)を行う。 SFTは、パス@1を最大15.92%改善し、パス@10を4つのベンチマークで9.30%改善した。 RLトレーニングでは、pass@1が3.54%、pass@10が2.55%改善されている。トレーニングされたLLMは反復的な精錬能力を示し、コードを継続的に精錬し続けることができる。最後に、我々の人間による評価は、我々のフレームワークで訓練されたLLMがより有用なコード説明を生成し、開発者がソースコードのバグをよりよく理解するのに役立ちます。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。 AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文参考訳（メタデータ） (2024-06-19T13:29:53Z)
Aligning LLMs for FL-free Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文参考訳（メタデータ） (2024-04-13T02:36:40Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文参考訳（メタデータ） (2023-09-28T09:50:27Z)
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。 GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文参考訳（メタデータ） (2023-09-05T04:12:01Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。