論文の概要: IRCoder: Intermediate Representations Make Language Models Robust
Multilingual Code Generators
- arxiv url: http://arxiv.org/abs/2403.03894v1
- Date: Wed, 6 Mar 2024 17:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:03:34.567672
- Title: IRCoder: Intermediate Representations Make Language Models Robust
Multilingual Code Generators
- Title(参考訳): IRCoder: 中間表現は言語モデルをロバストな多言語コードジェネレータにする
- Authors: Indraneil Paul, Jun Luo, Goran Glava\v{s}, Iryna Gurevych
- Abstract要約: 本研究では,コンパイラ中間表現を活用することで,Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
- 参考スコア(独自算出の注目度): 55.40713784611711
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code understanding and generation have fast become some of the most popular
applications of language models (LMs). Nonetheless, research on multilingual
aspects of Code-LMs (i.e., LMs for code generation) such as cross-lingual
transfer between different programming languages, language-specific data
augmentation, and post-hoc LM adaptation, alongside exploitation of data
sources other than the original textual content, has been much sparser than for
their natural language counterparts. In particular, most mainstream Code-LMs
have been pre-trained on source code files alone. In this work, we investigate
the prospect of leveraging readily available compiler intermediate
representations - shared across programming languages - to improve the
multilingual capabilities of Code-LMs and facilitate cross-lingual transfer.
To this end, we first compile SLTrans, a parallel dataset consisting of
nearly 4M self-contained source code files coupled with respective intermediate
representations. Next, starting from various base Code-LMs (ranging in size
from 1.1B to 7.3B parameters), we carry out continued causal language modelling
training on SLTrans, forcing the Code-LMs to (1) learn the IR language and (2)
align the IR constructs with respective constructs of various programming
languages. Our resulting models, dubbed IRCoder, display sizeable and
consistent gains across a wide variety of code generation tasks and metrics,
including prompt robustness, multilingual code completion, code understanding,
and instruction following.
- Abstract(参考訳): コード理解と生成は、言語モデル(LM)の最も一般的な応用の1つである。
それでも、異なるプログラミング言語間の言語間移動、言語固有のデータ拡張、およびポストホックなLM適応などのコード-LMの多言語的側面の研究は、元のテキストコンテンツ以外のデータソースの活用とともに、自然言語よりもはるかに疎外されている。
特に、ほとんどの主要なCode-LMはソースコードファイルだけで事前訓練されている。
本研究では,プログラム言語間で共有されるコンパイラの中間表現を活用して,コード-LMの多言語化と言語間転送を容易にする可能性を検討する。
この目的のために,約4百万のソースコードファイルと各中間表現を組み合わせた並列データセットSLTransをコンパイルした。
次に、様々なベースコード-LM(サイズは 1.1B から 7.3B まで)から、SLTrans 上で継続的に因果言語モデリングトレーニングを行い、コード-LM は(1) IR言語を学習させ、(2) IR 構造を様々なプログラミング言語の構成要素と整合させる。
ircoderと呼ばれる私たちのモデルは、プロンプトロバスト性、多言語コード補完、コード理解、命令追従など、さまざまなコード生成タスクとメトリクスにわたって、サイズと一貫性のある成果を示しています。
関連論文リスト
- UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Learning Transfers over Several Programming Languages [5.618799979059861]
言語間変換学習は、ソース言語からのデータを使用して、ターゲット言語上でのモデルパフォーマンスを改善する。
本稿では,変圧器を用いた大規模言語モデルと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を報告する。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - CodeTransOcean: A Comprehensive Multilingual Benchmark for Code
Translation [8.979765541978292]
CodeTransOceanは、コード翻訳のための最大のプログラミング言語をサポートする大規模な包括的なデータセットである。
CodeTransOceanは3つの新しい多言語データセット、すなわち、複数のポピュラープログラミング言語間の翻訳をサポートするMultilingualTrans、ニッチプログラミング言語とポピュラー言語間の翻訳を行うNicheTrans、大言語モデル(LLM)による翻訳コードの実行可能性を評価するLLMTransで構成されている。
論文 参考訳(メタデータ) (2023-10-08T00:16:18Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (2022-12-13T17:21:44Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - MetaTPTrans: A Meta Learning Approach for Multilingual Code
Representation Learning [5.434698132994918]
多言語コード表現学習のためのメタ学習手法であるMetaTPTransを提案する。
本稿では,MetaTPTransが最先端アプローチのF1スコアを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-06-13T20:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。