論文の概要: Learning to Generate Code Sketches
- arxiv url: http://arxiv.org/abs/2106.10158v1
- Date: Fri, 18 Jun 2021 14:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 13:57:44.120866
- Title: Learning to Generate Code Sketches
- Title(参考訳): コードスケッチ生成の学習
- Authors: Daya Guo, Alexey Svyatkovskiy, Jian Yin, Nan Duan, Marc Brockschmidt,
Miltiadis Allamanis
- Abstract要約: 文法フォーマー(Grammformers)は、明示的な監督なしにスケッチを生成することを学ぶ文法誘導モデルである。
従来の生成モデルと比較して,グラムフォーマーは10~50%正確なスケッチを生成する。
- 参考スコア(独自算出の注目度): 49.54284461729813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional generative models are limited to predicting sequences of terminal
tokens. However, ambiguities in the generation task may lead to incorrect
outputs. Towards addressing this, we introduce Grammformers, transformer-based
grammar-guided models that learn (without explicit supervision) to generate
sketches -- sequences of tokens with holes. Through reinforcement learning,
Grammformers learn to introduce holes avoiding the generation of incorrect
tokens where there is ambiguity in the target task.
We train Grammformers for statement-level source code completion, i.e., the
generation of code snippets given an ambiguous user intent, such as a partial
code context. We evaluate Grammformers on code completion for C# and Python and
show that it generates 10-50% more accurate sketches compared to traditional
generative models and 37-50% longer sketches compared to sketch-generating
baselines trained with similar techniques.
- Abstract(参考訳): 伝統的な生成モデルは、終端トークンのシーケンスの予測に限定される。
しかし、生成タスクの曖昧さは誤った出力につながる可能性がある。
これに対処するために,変換器をベースとした文法誘導モデルであるGramformerを導入し,スケッチを生成するために(明示的な監督なしに)学習する。
強化学習を通じて、グラムフォーマーは、目標タスクにあいまいさがある不正確なトークンの発生を避ける穴を導入することを学ぶ。
文レベルのソースコード補完、すなわち、部分的なコードコンテキストなど、曖昧なユーザの意図が与えられたコードスニペットの生成のために、grammformersをトレーニングします。
我々は、c#とpythonのコード補完に関するgrammformersを評価し、従来の生成モデルよりも10-50%正確なスケッチを生成し、同様のテクニックでトレーニングされたスケッチ生成ベースラインと比較して37-50%長いスケッチを生成することを示した。
関連論文リスト
- SkCoder: A Sketch-based Approach for Automatic Code Generation [44.39900916450189]
そこで我々は,SkCoderというスケッチベースのコード生成手法を提案する。
自然言語の要件が与えられたら、SkCoderは同様のコードスニペットを取得し、コードスケッチとして関連する部分を抽出し、スケッチを所望のコードに編集する。
実験結果によると、SkCoderはより正確なプログラムを生成でき、3つのデータセットで最先端のCodeT5ベースを30.30%、35.39%、29.62%上回っている。
論文 参考訳(メタデータ) (2023-02-13T07:05:39Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - Generating Sequences by Learning to Self-Correct [64.0249217590888]
自己補正(Self-Correction)は、不完全な世代を反復的に修正する独立した修正器から不完全なベースジェネレータを分離する。
本稿では,3つの多種多様なタスクにおいて,自己補正がベースジェネレータを改善することを示す。
論文 参考訳(メタデータ) (2022-10-31T18:09:51Z) - Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models [8.166629393064097]
トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
論文 参考訳(メタデータ) (2022-08-24T11:25:27Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Unsupervised Learning of General-Purpose Embeddings for Code Changes [6.652641137999891]
事前学習中にコード変更の埋め込みを得る手法を提案する。
コードの変更とコミットメッセージ生成という、2つの異なる下流タスクでそれらを評価します。
本モデルでは,完全編集シーケンスを用いたモデルの精度を5.9ポイント向上させる。
論文 参考訳(メタデータ) (2021-06-03T19:08:53Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Automatic Code Generation using Pre-Trained Language Models [0.0]
学習済み言語モデルの上に構築されたPython言語におけるコード生成のためのエンドツーエンドの機械学習モデルを提案する。
本研究では,BLEUスコア0.22を達成し,適切なシーケンス・ツー・シーケンスベースラインよりも46%向上した,微調整モデルがコード生成タスクで良好に動作できることを実証する。
論文 参考訳(メタデータ) (2021-02-21T07:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。