論文の概要: Mix-of-Language-Experts Architecture for Multilingual Programming
- arxiv url: http://arxiv.org/abs/2506.18923v1
- Date: Wed, 18 Jun 2025 06:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.284791
- Title: Mix-of-Language-Experts Architecture for Multilingual Programming
- Title(参考訳): 多言語プログラミングのためのMix-of-Language-Expertsアーキテクチャ
- Authors: Yifan Zong, Yuntian Deng, Pengyu Nie,
- Abstract要約: MoLE(Mix-of-Language-Experts)は、多言語プログラミングの効率性と特殊化のバランスをとる。
MoLEはベースモデル、LoRA(低ランク適応)モジュールの共有、言語固有のLoRAモジュールのコレクションで構成されている。
推論中、MoLEは生成されたコードトークンのプログラミング言語に対応する言語固有のLoRAモジュールに自動的にルーティングする。
- 参考スコア(独自算出の注目度): 8.340711172494116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities in aiding developers with tasks like code comprehension, generation, and translation. Supporting multilingual programming -- i.e., coding tasks across multiple programming languages -- typically requires either (1) finetuning a single LLM across all programming languages, which is cost-efficient but sacrifices language-specific specialization and performance, or (2) finetuning separate LLMs for each programming language, which allows for specialization but is computationally expensive and storage-intensive due to the duplication of parameters. This paper introduces MoLE (Mix-of-Language-Experts), a novel architecture that balances efficiency and specialization for multilingual programming. MoLE is composed of a base model, a shared LoRA (low-rank adaptation) module, and a collection of language-specific LoRA modules. These modules are jointly optimized during the finetuning process, enabling effective knowledge sharing and specialization across programming languages. During inference, MoLE automatically routes to the language-specific LoRA module corresponding to the programming language of the code token being generated. Our experiments demonstrate that MoLE achieves greater parameter efficiency compared to training separate language-specific LoRAs, while outperforming a single shared LLM finetuned for all programming languages in terms of accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード理解、生成、翻訳といったタスクを開発者が支援する上で、印象的な機能を示している。
マルチ言語プログラミング -- すなわち、複数のプログラミング言語にわたるコーディングタスク -- をサポートするには、(コスト効率が良いが言語固有の特殊化と性能を犠牲にする)1つのLLMを、(パラメータの重複により計算コストが高く、ストレージ集約的な)1つのLLMを、それぞれ個別に微調整する必要があるのが一般的である。
本稿では,多言語プログラミングの効率性と特殊化のバランスをとる新しいアーキテクチャであるMoLE(Mix-of-Language-Experts)を紹介する。
MoLEはベースモデル、LoRA(低ランク適応)モジュールの共有、言語固有のLoRAモジュールのコレクションで構成されている。
これらのモジュールは微調整プロセス中に共同で最適化され、プログラミング言語間の効果的な知識共有と特殊化を可能にする。
推論中、MoLEは生成されたコードトークンのプログラミング言語に対応する言語固有のLoRAモジュールに自動的にルーティングする。
実験の結果,MoLE は言語固有の LoRA を訓練するよりもパラメータ効率が良く,また,全てのプログラミング言語に対して精度で微調整された単一共有 LLM よりも優れていた。
関連論文リスト
- LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Language Models are Universal Embedders [45.8316643119292]
大きな言語モデル(LLM)革命において、埋め込みは様々なシステムの重要な構成要素である。
組込み機を構築するための戦略を提案し,ユニバーサル評価ベンチマークを導入する。
実験結果から,学習モデルは言語やタスクにまたがる優れた埋め込みを生成するのに長けていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - AdvFusion: Adapter-based Knowledge Transfer for Code Summarization on Code Language Models [0.3228451873135423]
本稿では、ターゲットタスクに適応する前に、他の言語から効果的に学習するPEFTベースのアプローチであるAdvFusionを提案する。
コード要約とメソッド名予測で評価する。
AdapterFusionを最大1.7ポイント上回り、Ruby、JavaScript、Goでそれぞれ1.99、1.26、2.16でLoRAを上回っている。
論文 参考訳(メタデータ) (2023-07-15T17:17:16Z) - Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。
LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。
LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文 参考訳(メタデータ) (2022-12-12T18:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。