論文の概要: Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules
- arxiv url: http://arxiv.org/abs/2305.13993v3
- Date: Sun, 22 Oct 2023 17:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:06:38.028651
- Title: Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules
- Title(参考訳): 軽量言語モジュールによる多言語知識の凝縮
- Authors: Haoran Xu, Weiting Tan, Shuyue Stella Li, Yunmo Chen, Benjamin Van
Durme, Philipp Koehn, Kenton Murray
- Abstract要約: 本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。
このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
- 参考スコア(独自算出の注目度): 52.973832863842546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating language-specific (LS) modules is a proven method to boost
performance in multilingual machine translation. This approach bears similarity
to Mixture-of-Experts (MoE) because it does not inflate FLOPs. However, the
scalability of this approach to hundreds of languages (experts) tends to be
unmanageable due to the prohibitive number of parameters introduced by
full-rank matrices in fully-connected layers. In this work, we introduce the
Language-Specific Matrix Synthesis (LMS) method. This approach constructs LS
modules by generating low-rank matrices from two significantly smaller matrices
to approximate the full-rank matrix. Furthermore, we condense multilingual
knowledge from multiple LS modules into a single shared module with the Fuse
Distillation (FD) technique to improve the efficiency of inference and model
serialization. We show that our LMS method significantly outperforms previous
LS methods and MoE methods with the same amount of extra parameters, e.g., 1.73
BLEU points over the Switch Transformer on many-to-many multilingual machine
translation. Importantly, LMS is able to have comparable translation
performance with much fewer parameters.
- Abstract(参考訳): 言語固有の(LS)モジュールを組み込むことは、多言語機械翻訳の性能を高めるための実証された方法である。
このアプローチはFLOPをインフレしないため、Mixture-of-Experts (MoE)と似ている。
しかしながら、数百の言語(専門家)に対するこのアプローチのスケーラビリティは、完全連結層でフルランク行列によって導入されたパラメータの数が制限されるため、管理できない傾向がある。
本稿では,Language-Specific Matrix Synthesis (LMS)法について述べる。
このアプローチは、フルランク行列を近似するために、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
さらに,複数のLSモジュールからの多言語知識をFuse Distillation (FD)技術で単一の共有モジュールに凝縮し,推論とモデルシリアライゼーションの効率化を図る。
LMS法は, 多数の多言語機械翻訳において, Switch Transformer 上の 1.73 BLEU 点と同一量の余剰パラメータで, 従来のLS法と MoE 法を著しく上回ることを示す。
重要なことに、lmsはより少ないパラメータで同等の翻訳性能を得ることができる。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。
本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。
総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T14:30:02Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction [24.675876324457747]
Adapter、Prefix-tuning、LoRAのような既存のLPMを微調整する方法は、LSMの生来の能力を損なう可能性がある。
本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMの潜在能力を刺激し,徐々に価値ある情報に注意を払って指示に従う。
LLaMA-Excitorは、重要な改善を達成しつつ基本的な機能を維持する唯一の方法である。
論文 参考訳(メタデータ) (2024-04-01T04:39:21Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Serial or Parallel? Plug-able Adapter for multilingual machine
translation [15.114588783601466]
多言語機械翻訳のためのデフュージョン適応を付加したトランスフォーマーモデルであるPAMを提案する。
PAMは、単語と中間表現を言語固有のものに移すための埋め込みと層アダプタで構成されている。
IWSLT、OPUS-100、WMTベンチマークの実験結果から、メソッドは強力な競合相手よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-04-16T14:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。