Fugu-MT 論文翻訳(概要): Condensing Multilingual Knowledge with Lightweight Language-Specific Modules

論文の概要: Condensing Multilingual Knowledge with Lightweight Language-Specific Modules

arxiv url: http://arxiv.org/abs/2305.13993v2
Date: Sun, 8 Oct 2023 18:15:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 12:24:47.378535
Title: Condensing Multilingual Knowledge with Lightweight Language-Specific Modules
Title（参考訳）: 軽量言語モジュールによる多言語知識の凝縮
Authors: Haoran Xu, Weiting Tan, Shuyue Stella Li, Yunmo Chen, Benjamin Van Durme, Philipp Koehn, Kenton Murray
Abstract要約: 本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
参考スコア（独自算出の注目度）: 52.973832863842546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Incorporating language-specific (LS) modules is a proven method to boost performance in multilingual machine translation. This approach bears similarity to Mixture-of-Experts (MoE) because it does not inflate FLOPs. However, the scalability of this approach to hundreds of languages (experts) tends to be unmanageable due to the prohibitive number of parameters introduced by full-rank matrices in fully-connected layers. In this work, we introduce the Language-Specific Matrix Synthesis (LMS) method. This approach constructs LS modules by generating low-rank matrices from two significantly smaller matrices to approximate the full-rank matrix. Furthermore, we condense multilingual knowledge from multiple LS modules into a single shared module with the Fuse Distillation (FD) technique to improve the efficiency of inference and model serialization. We show that our LMS method significantly outperforms previous LS methods and MoE methods with the same amount of extra parameters, e.g., 1.73 BLEU points over the Switch Transformer on many-to-many multilingual machine translation. Importantly, LMS is able to have comparable translation performance with much fewer parameters.
Abstract（参考訳）: 言語固有の(LS)モジュールを組み込むことは、多言語機械翻訳の性能を高めるための実証された方法である。このアプローチはFLOPをインフレしないため、Mixture-of-Experts (MoE)と似ている。しかしながら、数百の言語(専門家)に対するこのアプローチのスケーラビリティは、完全連結層でフルランク行列によって導入されたパラメータの数が制限されるため、管理できない傾向がある。本稿では,Language-Specific Matrix Synthesis (LMS)法について述べる。このアプローチは、フルランク行列を近似するために、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。さらに,複数のLSモジュールからの多言語知識をFuse Distillation (FD)技術で単一の共有モジュールに凝縮し,推論とモデルシリアライゼーションの効率化を図る。 LMS法は, 多数の多言語機械翻訳において, Switch Transformer 上の 1.73 BLEU 点と同一量の余剰パラメータで, 従来のLS法と MoE 法を著しく上回ることを示す。重要なことに、lmsはより少ないパラメータで同等の翻訳性能を得ることができる。

関連論文リスト

MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts [56.106778414865126]
MultiPL-MoEはエキスパートとトークンレベルのエキスパートのハイブリッドである。セグメントレベルのMoEは、プログラミング言語の構文構造と文脈パターンをよりよく捉えるために、2つの革新的な設計を取り入れている。
論文参考訳（メタデータ） (2025-08-22T06:24:52Z)
Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models [59.21082876068122]
大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
論文参考訳（メタデータ） (2025-06-16T02:21:15Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Multi-Modality Expansion and Retention for LLMs through Parameter Merging and Decoupling [33.90190836855285]
MMERは既存のMLLMを統合し、元の性能を維持しながら効果的なマルチモーダル展開を行う。 MMERは、新しいタスクで微調整されたMLLMに同様のプロセスを適用することで、破滅的な忘れを軽減できる。
論文参考訳（メタデータ） (2025-05-21T12:40:07Z)
Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models [42.449334670206824]
テキスト由来のステアリングは多様なMLLMアーキテクチャや視覚タスクのマルチモーダル精度を一貫して向上させる。平均シフトはCV-Bench上の空間関係の精度を+7.3%、精度を+3.3%向上させる。その結果、テキストステアリングベクトルは、最小限のデータ収集と計算オーバーヘッドでMLLMのグラウンド化を強化するための強力で効率的なメカニズムとして強調された。
論文参考訳（メタデータ） (2025-05-20T08:23:08Z)
TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文参考訳（メタデータ） (2025-04-14T05:44:38Z)
LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文参考訳（メタデータ） (2025-02-17T03:45:03Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文参考訳（メタデータ） (2024-10-02T14:30:02Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction [24.675876324457747]
Adapter、Prefix-tuning、LoRAのような既存のLPMを微調整する方法は、LSMの生来の能力を損なう可能性がある。本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMの潜在能力を刺激し,徐々に価値ある情報に注意を払って指示に従う。 LLaMA-Excitorは、重要な改善を達成しつつ基本的な機能を維持する唯一の方法である。
論文参考訳（メタデータ） (2024-04-01T04:39:21Z)
Examining Scaling and Transfer of Language Model Architectures for Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文参考訳（メタデータ） (2022-02-01T16:20:15Z)
Serial or Parallel? Plug-able Adapter for multilingual machine translation [15.114588783601466]
多言語機械翻訳のためのデフュージョン適応を付加したトランスフォーマーモデルであるPAMを提案する。 PAMは、単語と中間表現を言語固有のものに移すための埋め込みと層アダプタで構成されている。 IWSLT、OPUS-100、WMTベンチマークの実験結果から、メソッドは強力な競合相手よりも優れていることが示された。
論文参考訳（メタデータ） (2021-04-16T14:58:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。