Fugu-MT 論文翻訳(概要): Mix-of-Language-Experts Architecture for Multilingual Programming

論文の概要: Mix-of-Language-Experts Architecture for Multilingual Programming

arxiv url: http://arxiv.org/abs/2506.18923v1
Date: Wed, 18 Jun 2025 06:20:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.284791
Title: Mix-of-Language-Experts Architecture for Multilingual Programming
Title（参考訳）: 多言語プログラミングのためのMix-of-Language-Expertsアーキテクチャ
Authors: Yifan Zong, Yuntian Deng, Pengyu Nie,
Abstract要約: MoLE(Mix-of-Language-Experts)は、多言語プログラミングの効率性と特殊化のバランスをとる。 MoLEはベースモデル、LoRA(低ランク適応)モジュールの共有、言語固有のLoRAモジュールのコレクションで構成されている。推論中、MoLEは生成されたコードトークンのプログラミング言語に対応する言語固有のLoRAモジュールに自動的にルーティングする。
参考スコア（独自算出の注目度）: 8.340711172494116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive capabilities in aiding developers with tasks like code comprehension, generation, and translation. Supporting multilingual programming -- i.e., coding tasks across multiple programming languages -- typically requires either (1) finetuning a single LLM across all programming languages, which is cost-efficient but sacrifices language-specific specialization and performance, or (2) finetuning separate LLMs for each programming language, which allows for specialization but is computationally expensive and storage-intensive due to the duplication of parameters. This paper introduces MoLE (Mix-of-Language-Experts), a novel architecture that balances efficiency and specialization for multilingual programming. MoLE is composed of a base model, a shared LoRA (low-rank adaptation) module, and a collection of language-specific LoRA modules. These modules are jointly optimized during the finetuning process, enabling effective knowledge sharing and specialization across programming languages. During inference, MoLE automatically routes to the language-specific LoRA module corresponding to the programming language of the code token being generated. Our experiments demonstrate that MoLE achieves greater parameter efficiency compared to training separate language-specific LoRAs, while outperforming a single shared LLM finetuned for all programming languages in terms of accuracy.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード理解、生成、翻訳といったタスクを開発者が支援する上で、印象的な機能を示している。マルチ言語プログラミング -- すなわち、複数のプログラミング言語にわたるコーディングタスク -- をサポートするには、(コスト効率が良いが言語固有の特殊化と性能を犠牲にする)1つのLLMを、(パラメータの重複により計算コストが高く、ストレージ集約的な)1つのLLMを、それぞれ個別に微調整する必要があるのが一般的である。本稿では,多言語プログラミングの効率性と特殊化のバランスをとる新しいアーキテクチャであるMoLE(Mix-of-Language-Experts)を紹介する。 MoLEはベースモデル、LoRA(低ランク適応)モジュールの共有、言語固有のLoRAモジュールのコレクションで構成されている。これらのモジュールは微調整プロセス中に共同で最適化され、プログラミング言語間の効果的な知識共有と特殊化を可能にする。推論中、MoLEは生成されたコードトークンのプログラミング言語に対応する言語固有のLoRAモジュールに自動的にルーティングする。実験の結果,MoLE は言語固有の LoRA を訓練するよりもパラメータ効率が良く,また,全てのプログラミング言語に対して精度で微調整された単一共有 LLM よりも優れていた。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Multi-Agent Collaboration for Multilingual Code Instruction Tuning [41.74155456003822]
コードLLMのための多言語命令チューニングを強化するための,新しいマルチエージェント協調フレームワークを提案する。生成メモリを備えた複数の言語固有のインテリジェントエージェントコンポーネントが協調して、ある言語から別の言語に知識を効率よく伝達する。多言語プログラミングベンチマークの実験結果は、共通知識を共有する上でQwen2.5-xCoderの優れた性能を示している。
論文参考訳（メタデータ） (2025-02-11T11:46:38Z)
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。 LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。 5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-01T15:43:07Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文参考訳（メタデータ） (2024-09-06T08:31:18Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Language Models are Universal Embedders [45.8316643119292]
大きな言語モデル(LLM)革命において、埋め込みは様々なシステムの重要な構成要素である。組込み機を構築するための戦略を提案し,ユニバーサル評価ベンチマークを導入する。実験結果から,学習モデルは言語やタスクにまたがる優れた埋め込みを生成するのに長けていることがわかった。
論文参考訳（メタデータ） (2023-10-12T11:25:46Z)
AdvFusion: Adapter-based Knowledge Transfer for Code Summarization on Code Language Models [0.3228451873135423]
本稿では、ターゲットタスクに適応する前に、他の言語から効果的に学習するPEFTベースのアプローチであるAdvFusionを提案する。コード要約とメソッド名予測で評価する。 AdapterFusionを最大1.7ポイント上回り、Ruby、JavaScript、Goでそれぞれ1.99、1.26、2.16でLoRAを上回っている。
論文参考訳（メタデータ） (2023-07-15T17:17:16Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。 LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。 LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文参考訳（メタデータ） (2022-12-12T18:09:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。