論文の概要: ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages
- arxiv url: http://arxiv.org/abs/2212.06742v1
- Date: Tue, 13 Dec 2022 17:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:01:32.192209
- Title: ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages
- Title(参考訳): ernie-code: プログラミング言語のための英語中心のクロスリンガル事前学習
- Authors: Yekun Chai, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu
- Abstract要約: 同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
- 参考スコア(独自算出の注目度): 37.60016772021422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software engineers working with the same programming language (PL) may speak
different natural languages (NLs) and vice versa, erecting huge barriers to
communication and working efficiency. Recent studies have demonstrated the
effectiveness of generative pre-training in computer programs, yet they are
always English-centric. In this work, we step towards bridging the gap between
multilingual NLs and multilingual PLs for large language models (LLMs). We
release ERNIE-Code, a unified pre-trained language model for 116 NLs and 6 PLs.
We employ two methods for universal cross-lingual pre-training: span-corruption
language modeling that learns patterns from monolingual NL or PL; and
pivot-based translation language modeling that relies on parallel data of many
NLs and PLs. Extensive results show that ERNIE-Code outperforms previous
multilingual LLMs for PL or NL across a wide range of end tasks of code
intelligence, including multilingual code-to-text, text-to-code, code-to-code,
and text-to-text generation. We further show its advantage of zero-shot
prompting on multilingual code summarization and text-to-text translation. We
will make our code and pre-trained models publicly available.
- Abstract(参考訳): 同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆もまた、コミュニケーションと作業効率に対する大きな障壁を築きます。
近年、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、常に英語中心である。
本研究では,大規模言語モデル(LLM)における多言語NLと多言語PLのギャップを埋めることを目指す。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
普遍的な言語間事前学習には,単言語nlやplからパターンを学習するスパン・腐敗言語モデリングと,多数のnlやplの並列データに依存するpivotに基づく翻訳言語モデリングの2つの手法を用いる。
ERNIE-Codeは、多言語のコード・トゥ・テキスト、テキスト・トゥ・コード、テキスト・トゥ・テキスト生成など、コードインテリジェンスの幅広いタスクにおいて、PLやNLの従来の多言語LLMよりも優れていた。
さらに,多言語コード要約とテキスト間翻訳におけるゼロショットプロンプトの利点を示す。
コードと事前トレーニングされたモデルを公開します。
関連論文リスト
- Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。
評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。
本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-19T05:11:46Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。