論文の概要: MetaTPTrans: A Meta Learning Approach for Multilingual Code
Representation Learning
- arxiv url: http://arxiv.org/abs/2206.06460v1
- Date: Mon, 13 Jun 2022 20:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:56:32.764151
- Title: MetaTPTrans: A Meta Learning Approach for Multilingual Code
Representation Learning
- Title(参考訳): MetaTPTrans:多言語コード表現学習のためのメタ学習アプローチ
- Authors: Weiguo Pian, Hanyu Peng, Xunzhu Tang, Tiezhu Sun, Haoye Tian, Andrew
Habib, Jacques Klein, Tegawend\'e F. Bissyand\'e
- Abstract要約: 多言語コード表現学習のためのメタ学習手法であるMetaTPTransを提案する。
本稿では,MetaTPTransが最先端アプローチのF1スコアを大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 5.434698132994918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning of source code is essential for applying machine
learning to software engineering tasks. Learning code representation across
different programming languages has been shown to be more effective than
learning from single-language datasets, since more training data from
multi-language datasets improves the model's ability to extract
language-agnostic information from source code. However, existing
multi-language models overlook the language-specific information which is
crucial for downstream tasks that is training on multi-language datasets, while
only focusing on learning shared parameters among the different languages. To
address this problem, we propose MetaTPTrans, a meta learning approach for
multilingual code representation learning. MetaTPTrans generates different
parameters for the feature extractor according to the specific programming
language of the input source code snippet, enabling the model to learn both
language-agnostics and language-specific information. Experimental results show
that MetaTPTrans improves the F1 score of state-of-the-art approaches
significantly by up to 2.40 percentage points for code summarization, a
language-agnostic task; and the prediction accuracy of Top-1 (Top-5) by up to
7.32 (13.15) percentage points for code completion, a language-specific task.
- Abstract(参考訳): ソースコードの表現学習は、ソフトウェア工学のタスクに機械学習を適用するために不可欠である。
異なるプログラミング言語間のコード表現の学習は、複数の言語データセットからのトレーニングデータが、ソースコードから言語に依存しない情報を抽出する能力を改善するため、単一言語データセットから学ぶことよりも効果的であることが示されている。
しかし、既存のマルチ言語モデルは、複数の言語データセットでトレーニングする下流タスクにとって重要な言語固有の情報を見落とし、異なる言語間で共有パラメータを学習することだけに焦点を当てている。
本稿では,多言語コード表現学習のためのメタ学習手法であるmetatptransを提案する。
metatptransは、入力ソースコードスニペットの特定のプログラミング言語に従って、特徴抽出器の異なるパラメータを生成し、モデルが言語に依存しない情報と言語固有の情報の両方を学習できるようにする。
実験結果から,MetaTPTransは,コード要約作業におけるF1スコアを最大2.40ポイント,言語固有のタスクであるコード補完作業においてTop-1(Top-5)の予測精度を最大7.32(Top5)ポイント,言語固有のタスクとして最大7.15ポイント向上した。
関連論文リスト
- IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Learning Transfers over Several Programming Languages [5.350495525141013]
言語間転送は、ソース言語からのデータを使用して、ターゲット言語でのモデルパフォーマンスを改善する。
本稿では,変圧器を用いた大規模言語モデルと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を報告する。
学習は、複数のプログラミング言語間でうまく伝達される。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Multilingual Transfer Learning for Code-Switched Language and Speech
Neural Modeling [12.497781134446898]
本稿では,言語非依存なマルチタスク学習手法を提案することにより,言語理論のデータ不足と限界に対処する。
まず,メタラーニングに基づくメタトランスファー学習を提案する。そこでは,高音源単言語音声データから,コードスイッチング領域への情報抽出を行う。
第2に,他の言語で学習した有用な知識を得ることにより,コードスイッチングデータを効果的に表現するための,多言語メタエム手法を提案する。
第3に,言語モデルへの伝達学習戦略として構文情報を統合するために,マルチタスク学習を導入する。
論文 参考訳(メタデータ) (2021-04-13T14:49:26Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。