論文の概要: MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2508.19268v2
- Date: Mon, 08 Sep 2025 08:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.320436
- Title: MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
- Title(参考訳): MultiPL-MoE:ハイブリッド・ミックス・オブ・エクササイズによる大規模言語モデルの多言語拡張
- Authors: Qing Wang, Xue Han, Jiahui Wang, Lehao Xing, Qian Hu, Lianlian Zhang, Chao Deng, Junlan Feng,
- Abstract要約: MultiPL-MoEはエキスパートとトークンレベルのエキスパートのハイブリッドである。
セグメントレベルのMoEは、プログラミング言語の構文構造と文脈パターンをよりよく捉えるために、2つの革新的な設計を取り入れている。
- 参考スコア(独自算出の注目度): 56.106778414865126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite LLMs' excellent code creation capabilities, multilingual code generation remains extremely challenging. To address this, we intent to improve the multi-programming-lingual (MultiPL) performance of the base LLMs while retaining the most popular ones using restricted computational resources. We consider MultiPL to be a special case of multiple natural languages and propose a MultiPL extension of LLMs utilizing a hybrid mixture of experts (MoE), called MultiPL-MoE. Specifically, MultiPL-MoE combines two paired MoEs to optimize expert selection at both the token and segment levels. The token-level MoE is a standard upcycling MoE structure with a shared expert and a novel gate weight normalization approach that aids in the final fusion with the segment-level MoE. The segment-level MoE incorporates two innovative designs to better capture the syntactic structure and contextual patterns of programming languages: First, using a sliding window to partition the input token sequence into multiple segments; Then, adopting an expert-choice routing strategy that allows experts to select the top-k segments. The results of the experiment proved the effectiveness of MultiPL-MoE.
- Abstract(参考訳): LLMの優れたコード生成機能にもかかわらず、多言語コード生成は非常に難しい。
そこで本研究では,LLMのマルチプログラミング言語(MultiPL)性能を向上させるとともに,制限された計算資源を用いて最もよく使われるものを維持することを目的としている。
我々は、MultiPLを複数の自然言語の特殊な場合とみなし、MultiPL-MoE(MultiPL-MoE)と呼ばれる、MultiPL-MoE(MultiPL-MoE)を併用したLLMのMultiPL拡張を提案する。
特に、MultiPL-MoEは2組のMoEを組み合わせてトークンとセグメントレベルの専門家選択を最適化する。
トークンレベル MoE は、共有専門家と、セグメントレベル MoE との最終的な融合を支援する新しいゲートウェイト正規化アプローチを備えた標準のアップサイクル MoE 構造である。
まず、スライディングウィンドウを使用して入力トークンシーケンスを複数のセグメントに分割する。次に、専門家がトップkセグメントを選択するためのエキスパート選択ルーティング戦略を採用する。
実験の結果,MultiPL-MoEの有効性が示された。
関連論文リスト
- TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MultiCoder: Multi-Programming-Lingual Pre-Training for Low-Resource Code
Completion [21.100570496144694]
我々は、MultiPLプレトレーニングとMultiPL Mixture-of-Expertsレイヤを用いて、低リソースのコード補完を強化するためのMultiCoderを提案する。
また,全てのPLのコード補完を改善するため,新しいPLレベルMOEルーティング戦略(PL-MoE)を提案する。
論文 参考訳(メタデータ) (2022-12-19T17:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。