Fugu-MT 論文翻訳(概要): Improving Tree-Structured Decoder Training for Code Generation via Mutual Learning

論文の概要: Improving Tree-Structured Decoder Training for Code Generation via Mutual Learning

arxiv url: http://arxiv.org/abs/2105.14796v1
Date: Mon, 31 May 2021 08:44:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-01 17:19:18.067539
Title: Improving Tree-Structured Decoder Training for Code Generation via Mutual Learning
Title（参考訳）: 相互学習によるコード生成のための木構造デコーダトレーニングの改善
Authors: Binbin Xie, Jinsong Su, Yubin Ge, Xiang Li, Jianwei Cui, Junfeng Yao and Bin Wang
Abstract要約: コード生成は、入力された自然言語の発話に与えられたコードを自動的に生成することを目的としている。まず、異なるデコードを持つニューラルコード生成モデル間のコンテキストモデリングの違いを網羅的に分析する。本稿では,これらのモデルを協調的に学習するための相互学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 27.080718377956693
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code generation aims to automatically generate a piece of code given an input natural language utterance. Currently, among dominant models, it is treated as a sequence-to-tree task, where a decoder outputs a sequence of actions corresponding to the pre-order traversal of an Abstract Syntax Tree. However, such a decoder only exploits the preorder traversal based preceding actions, which are insufficient to ensure correct action predictions. In this paper, we first throughly analyze the context modeling difference between neural code generation models with different traversals based decodings (preorder traversal vs breadth-first traversal), and then propose to introduce a mutual learning framework to jointly train these models. Under this framework, we continuously enhance both two models via mutual distillation, which involves synchronous executions of two one-to-one knowledge transfers at each training step. More specifically, we alternately choose one model as the student and the other as its teacher, and require the student to fit the training data and the action prediction distributions of its teacher. By doing so, both models can fully absorb the knowledge from each other and thus could be improved simultaneously. Experimental results and in-depth analysis on several benchmark datasets demonstrate the effectiveness of our approach. We release our code at https://github.com/DeepLearnXMU/CGML.
Abstract（参考訳）: コード生成は、入力自然言語発話が与えられたコードを自動的に生成することを目的としている。現在、支配的なモデルでは、シーケンスからツリーへのタスクとして扱われ、デコーダは抽象構文木のプレオーダートラバーサルに対応するアクションのシーケンスを出力する。しかし、そのようなデコーダは、正しい動作予測を保証するのに不十分な事前のトラバーサルベースの先行アクションのみを利用する。本稿では、まず、異なるトラバーサルに基づくデコード(プレオーダートラバーサル対幅優先トラバーサル)を持つニューラルコード生成モデル間のコンテキストモデリングの違いを分析し、それらのモデルを共同学習するための相互学習フレームワークを提案する。この枠組みでは, 相互蒸留により2つのモデルを連続的に強化し, 学習ステップ毎に1対1の知識伝達を同期的に実行する。具体的には,教師としてのモデルと教師としてのモデルとを交互に選択し,教師のトレーニングデータと行動予測分布の適合を学生に要求する。これにより、両方のモデルが相互に知識を完全に吸収し、同時に改善することができる。いくつかのベンチマークデータセットに対する実験結果と詳細な分析により,本手法の有効性が示された。コードをhttps://github.com/DeepLearnXMU/CGMLでリリースします。

関連論文リスト

UniGenCoder: Merging Seq2Seq and Seq2Tree Paradigms for Unified Code Generation [32.315975899771495]
既存のコード生成アプローチでは、トークンのシーケンスとしてターゲットコードを生成するSequence-to-Sequenceパラダイムや、アクションのシーケンスとしてコードを出力するSequence-to-Treeパラダイムが重視されている。コード関連生成タスクに対してUniGenCoderを提案する。これは共有エンコーダと、最小限の追加パラメータを持つ共有デコーダと、各インスタンスに対して最適なパラダイムを動的に選択するセレクタから構成される。テキスト・ツー・コード生成タスクとコード・ツー・コード生成タスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-02-18T03:19:48Z)
Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。 BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文参考訳（メタデータ） (2024-11-27T03:31:14Z)
Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文参考訳（メタデータ） (2024-10-23T11:06:36Z)
Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [31.568675300434816]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文参考訳（メタデータ） (2024-10-18T17:48:27Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。 4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文参考訳（メタデータ） (2022-10-28T11:18:10Z)
Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文参考訳（メタデータ） (2022-03-09T15:56:49Z)
UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文参考訳（メタデータ） (2022-03-08T04:48:07Z)
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。我々は、下流データの多様性を豊かにする意味保存変換を利用する。本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文参考訳（メタデータ） (2021-12-04T07:21:28Z)
Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文参考訳（メタデータ） (2021-09-20T14:51:42Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。