Fugu-MT 論文翻訳(概要): ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation

論文の概要: ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation

arxiv url: http://arxiv.org/abs/2405.17057v1
Date: Mon, 27 May 2024 11:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 15:42:27.400643
Title: ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation
Title（参考訳）: ReflectionCoder: 強化されたワンオフコード生成のためのリフレクションシーケンスから学ぶ
Authors: Houxing Ren, Mingjie Zhan, Zhongyuan Wu, Aojun Zhou, Junting Pan, Hongsheng Li,
Abstract要約: 我々は,コンパイラフィードバックを統合して構築したリフレクションシーケンスを効果的に活用し,ワンオフコード生成性能を向上させる新しい手法であるReflectionCoderを提案する。また,HumanEval(+),MBPP(+),MultiPl-Eの3つのベンチマーク実験により,本手法で微調整したモデルが最先端の性能を発揮することを示した。
参考スコア（独自算出の注目度）: 39.778073569406175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code generation plays a crucial role in various tasks, such as code auto-completion and mathematical reasoning. Previous work has proposed numerous methods to enhance code generation performance, including integrating feedback from the compiler. Inspired by this, we present ReflectionCoder, a novel approach that effectively leverages reflection sequences constructed by integrating compiler feedback to improve one-off code generation performance. Furthermore, we propose reflection self-distillation and dynamically masked distillation to effectively utilize these reflection sequences. Extensive experiments on three benchmarks, i.e., HumanEval (+), MBPP (+), and MultiPl-E, demonstrate that models fine-tuned with our method achieve state-of-the-art performance. Notably, ReflectionCoder-DeepSeek-Coder-33B reaches pass@1 of 82.9 (76.8) on HumanEval (+) and 84.1 (72.0) on MBPP (+), on par with GPT-3.5-Turbo and Claude-3-opus, and surpasses early GPT-4. Beyond the code domain, we believe this approach can benefit other domains that focus on final results and require long reasoning paths. Code and data are available at https://github.com/SenseLLM/ReflectionCoder.
Abstract（参考訳）: コード生成は、コードの自動補完や数学的推論など、様々なタスクにおいて重要な役割を果たす。以前の作業では、コンパイラからのフィードバックの統合など、コード生成のパフォーマンスを向上させる多くの方法が提案されていた。コンパイラフィードバックを統合することで構築されたリフレクションシーケンスを効果的に活用し、ワンオフコード生成性能を向上させる新しい手法であるReflectionCoderを提案する。さらに,これらのリフレクションシーケンスを効果的に活用するために,リフレクション自己蒸留と動的マスク蒸留を提案する。また,HumanEval(+),MBPP(+),MultiPl-Eの3つのベンチマークにおいて,本手法で微調整したモデルが最先端性能を実現することを示す。特に、ReflectionCoder-DeepSeek-Coder-33Bは、HumanEval (+)で82.9 (76.8)、MBPP (+)で84.1 (72.0)のパス@1に達し、GPT-3.5-TurboとClaude-3-opusに匹敵する。コードドメインを超えて、このアプローチは最終結果にフォーカスし、長い推論パスを必要とする他のドメインに利益をもたらすと信じています。コードとデータはhttps://github.com/SenseLLM/ReflectionCoder.comで公開されている。

関連論文リスト

Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文参考訳（メタデータ） (2025-03-02T14:02:03Z)
Multi-Turn Code Generation Through Single-Step Rewards [68.05767417891057]
既存のメソッドはフィードバックなしでコードを生成するか、多ターン報酬を最適化するために複雑な階層的な強化学習を使用する。我々は,単一ステップの報酬のみを用いて,マルチターンコード生成を解決する,シンプルでスケーラブルなアプローチである$mu$Codeを提案する。
論文参考訳（メタデータ） (2025-02-27T18:55:05Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
SelfCodeAlign: Self-Alignment for Code Generation [15.23960029671979]
SelfCodeAlignは、自己整合型コード言語モデル(LLM)のための、初めて完全に透明で許容可能なパイプラインであるまず、高品質なシードスニペットから多様なコーディング概念を抽出し、新しいタスクを生成する。次に、タスク毎に複数のレスポンスをサンプリングし、それぞれがテストケースとペアリングし、サンドボックス環境で検証する。このデータセットの微調整は、HumanEval+で67.1パス@1を達成するモデルにつながります。
論文参考訳（メタデータ） (2024-10-31T17:55:13Z)
Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration [16.10791252542592]
シーケンスレコメンデーション(SeqRec)は、ユーザの意図を理解し、協調的なフィルタリング情報を活用することによって、ユーザが対話する次の項目を予測することを目的としている。大規模言語モデル(LLM)は、プロンプトベース、固定されたリフレクションライブラリ、微調整技術を通じて推奨タスクにおいて大きな可能性を示してきた。 MoREは、明示的な選好、暗黙的な選好、協調的な信号に関するLLMベースのリフレクタを生成するための3つのリフレクタを導入している。
論文参考訳（メタデータ） (2024-09-10T09:58:55Z)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文参考訳（メタデータ） (2024-08-25T07:10:36Z)
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation [25.344800819245858]
FunCoderは、機能的なコンセンサスに分割と参照の戦略を取り入れたコード生成フレームワークである。 FunCoderは、HumanEval、MBPP、xCodeEval、MATHにおいて、GPT-3.5とGPT-4で、最先端のメソッドを平均で+9.8%上回る。
論文参考訳（メタデータ） (2024-05-30T14:31:33Z)
DolphCoder: Echo-Locating Code Large Language Models with Diverse and Multi-Objective Instruction Tuning [36.78560777629329]
コード生成を自己評価する多種多様な命令モデル(DolphCoder)を導入する。多様な命令ターゲットを学習し、コード生成能力を高めるためにコード評価の目的を組み合わせる。本モデルは,HumanEvalおよびMBPPベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-02-14T12:34:58Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.459517921633247]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文参考訳（メタデータ） (2023-07-27T15:28:29Z)
CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文参考訳（メタデータ） (2023-06-05T20:39:08Z)
Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文参考訳（メタデータ） (2022-11-29T18:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。