Fugu-MT 論文翻訳(概要): IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators

論文の概要: IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators

arxiv url: http://arxiv.org/abs/2403.03894v3
Date: Mon, 15 Apr 2024 16:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 22:46:16.360672
Title: IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators
Title（参考訳）: IRCoder: 中間表現は言語モデルをロバストな多言語コードジェネレータにする
Authors: Indraneil Paul, Goran Glavaš, Iryna Gurevych,
Abstract要約: 本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
参考スコア（独自算出の注目度）: 49.903001442804594
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Code understanding and generation have fast become some of the most popular applications of language models (LMs). Nonetheless, research on multilingual aspects of Code-LMs (i.e., LMs for code generation) such as cross-lingual transfer between different programming languages, language-specific data augmentation, and post-hoc LM adaptation, alongside exploitation of data sources other than the original textual content, has been much sparser than for their natural language counterparts. In particular, most mainstream Code-LMs have been pre-trained on source code files alone. In this work, we investigate the prospect of leveraging readily available compiler intermediate representations (IR) - shared across programming languages - to improve the multilingual capabilities of Code-LMs and facilitate cross-lingual transfer. To this end, we first compile SLTrans, a parallel dataset consisting of nearly 4M self-contained source code files coupled with respective intermediate representations. Next, starting from various base Code-LMs (ranging in size from 1.1B to 7.3B parameters), we carry out continued causal language modelling training on SLTrans, forcing the Code-LMs to (1) learn the IR language and (2) align the IR constructs with respective constructs of various programming languages. Our resulting models, dubbed IRCoder, display sizeable and consistent gains across a wide variety of code generation tasks and metrics, including prompt robustness, multilingual code completion, code understanding, and instruction following.
Abstract（参考訳）: コード理解と生成は、言語モデル(LM)の最も一般的な応用の1つである。それでも、異なるプログラミング言語間の言語間移動、言語固有のデータ拡張、およびポストホックなLM適応などのコード-LMの多言語的側面の研究は、元のテキストコンテンツ以外のデータソースの活用とともに、自然言語よりもはるかに疎外されている。特に、ほとんどの主要なCode-LMはソースコードファイルだけで事前訓練されている。本稿では,プログラム言語間で共有されるコンパイラ中間表現(IR)を活用して,コード-LMの多言語機能を改善し,言語間転送を容易にする可能性について検討する。この目的のために,約4百万の自己完結型ソースコードファイルと各中間表現を組み合わせた並列データセットであるSLTransをまずコンパイルした。次に、様々なベースコード-LM(サイズは 1.1B から 7.3B まで)から、SLTrans 上で継続的に因果言語モデリングトレーニングを行い、コード-LM は(1) IR言語を学習させ、(2) IR 構造を様々なプログラミング言語の構成要素と整合させる。 IRCoderと呼ばれる結果のモデルは、迅速な堅牢性、多言語コード補完、コード理解、命令フォローを含む、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。

関連論文リスト

Can Large Language Models Understand, Reason About, and Generate Code-Switched Text? [26.210664542372168]
コードスイッチングは多言語通信において広く普及する現象であるが、混合言語環境における大規模言語モデル(LLM)の堅牢性は未だ十分に理解されていない。我々は,16種類の並列コード切替言語ペアの変種からなる,高品質なヒューマンアノテーションを備えた新しいベンチマークであるCodeMixQAを紹介する。コードスイッチングされた質問応答タスクにおけるLCMの推論動作を分析し、混合言語入力に対するモデル処理と推論の仕方について光を当てる。
論文参考訳（メタデータ） (2026-01-12T02:52:38Z)
Beyond Language Boundaries: Uncovering Programming Language Families for Code Language Models [8.711642038538876]
プログラミング言語の急速な普及は、多言語コードLLMを開発するための機会と課題の両方を示している。本稿では,PLの潜伏するファミリーを明らかにするための埋め込み型フレームワークを提案する。この研究は、プログラミング言語の普遍的な視点を提供し、多言語コードのLLMトレーニングのためのより効果的な戦略を進歩させる。
論文参考訳（メタデータ） (2025-12-22T16:04:56Z)
Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。言語固有のデコーディングと多言語表現を共有できるのでしょうか? 層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文参考訳（メタデータ） (2025-11-13T22:51:06Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Multi-Agent Collaboration for Multilingual Code Instruction Tuning [41.74155456003822]
コードLLMのための多言語命令チューニングを強化するための,新しいマルチエージェント協調フレームワークを提案する。生成メモリを備えた複数の言語固有のインテリジェントエージェントコンポーネントが協調して、ある言語から別の言語に知識を効率よく伝達する。多言語プログラミングベンチマークの実験結果は、共通知識を共有する上でQwen2.5-xCoderの優れた性能を示している。
論文参考訳（メタデータ） (2025-02-11T11:46:38Z)
Specification-Driven Code Translation Powered by Large Language Models: How Far Are We? [8.534857249221844]
コード翻訳の中間表現としてNL-specificationを用いる。以上の結果から,NL特異化だけでは性能改善には至らないことが明らかとなった。コード翻訳の性能解析に加えて,翻訳コードの品質についても検討する。
論文参考訳（メタデータ） (2024-12-05T20:10:21Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文参考訳（メタデータ） (2024-08-19T05:11:46Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。 LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文参考訳（メタデータ） (2024-04-30T08:51:49Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文参考訳（メタデータ） (2022-12-13T17:21:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。