論文の概要: Tuning Models of Code with Compiler-Generated Reinforcement Learning
Feedback
- arxiv url: http://arxiv.org/abs/2305.18341v1
- Date: Thu, 25 May 2023 22:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:08:02.207547
- Title: Tuning Models of Code with Compiler-Generated Reinforcement Learning
Feedback
- Title(参考訳): コンパイラ生成強化学習フィードバックによるコードのチューニングモデル
- Authors: Abhinav Jain (1), Chima Adiole (1), Swarat Chaudhuri (2), Thomas Reps
(3), Chris Jermaine (1) ((1) Rice University, (2) UT Austin, (3) University
of Wisconsin)
- Abstract要約: コードで事前トレーニングされた大きな言語モデルは、基本的な言語レベルの不変性に違反する可能性があるため、下流タスクのパフォーマンスが低下する。
RLCFと呼ばれるアプローチによってこの問題に対処し、コードコンパイラからのフィードバックを使って、事前訓練されたLLMをさらに訓練する。
実験の結果、LCFはLCMが生成したプログラムが実行可能であり、テスト時に適切な出力を生成する確率を著しく高めることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) pre-trained on code have recently emerged as the
dominant approach to program synthesis. However, the code that these models
produce can violate basic language-level invariants, leading to lower
performance in downstream tasks. We address this issue through an approach,
called RLCF, that further trains a pre-trained LLM using feedback from a code
compiler. RLCF views the LLM as an RL agent that generates code step by step
and receives: (i) compiler-derived feedback on whether the code it generates
passes a set of correctness checks; and (ii) feedback from a different LLM on
whether the generated code is similar to a set of reference programs in the
training corpus. Together, these feedback mechanisms help the generated code
remain within the target distribution while passing all static correctness
checks. RLCF is model- and language-agnostic. We empirically evaluate it on the
MBJP and MathQA tasks for Java. Our experiments show that RLCF significantly
raises the odds that an LLM-generated program compiles, is executable, and
produces the right output on tests, often allowing LLMs to match the
performance of 2x-8x larger LLMs.
- Abstract(参考訳): コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主要なアプローチとして最近登場した。
しかし、これらのモデルが生成するコードは基本的な言語レベルの不変性に反し、下流タスクのパフォーマンスが低下する可能性がある。
RLCFと呼ばれるアプローチによってこの問題に対処し、コードコンパイラからのフィードバックを使って事前訓練されたLLMをさらに訓練する。
rlcfは、llmをステップバイステップでコードを生成し、受信するrlエージェントとして捉えている。
(i) 生成するコードが一連の正当性チェックを通すかどうかに関するコンパイラからのフィードバック
(ii)異なるllmからのフィードバックは、生成したコードがトレーニングコーパス内の一連の参照プログラムに類似しているかどうかを判断する。
これらのフィードバックメカニズムは、静的な修正チェックをすべてパスしながら、生成されたコードをターゲットディストリビューション内に保持するのに役立つ。
RLCFはモデルと言語に依存しない。
JavaのMBJPタスクとMathQAタスクで実証的に評価します。
実験の結果,LCF は LLM が生成したプログラムが実行可能である確率を著しく高め,テスト時に適切な出力を出力し,LLM が 2x-8 以上の LLM の性能に匹敵することを示した。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。