論文の概要: Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules
- arxiv url: http://arxiv.org/abs/2305.13993v3
- Date: Sun, 22 Oct 2023 17:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:06:38.028651
- Title: Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules
- Title(参考訳): 軽量言語モジュールによる多言語知識の凝縮
- Authors: Haoran Xu, Weiting Tan, Shuyue Stella Li, Yunmo Chen, Benjamin Van
Durme, Philipp Koehn, Kenton Murray
- Abstract要約: 本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。
このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
- 参考スコア(独自算出の注目度): 52.973832863842546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating language-specific (LS) modules is a proven method to boost
performance in multilingual machine translation. This approach bears similarity
to Mixture-of-Experts (MoE) because it does not inflate FLOPs. However, the
scalability of this approach to hundreds of languages (experts) tends to be
unmanageable due to the prohibitive number of parameters introduced by
full-rank matrices in fully-connected layers. In this work, we introduce the
Language-Specific Matrix Synthesis (LMS) method. This approach constructs LS
modules by generating low-rank matrices from two significantly smaller matrices
to approximate the full-rank matrix. Furthermore, we condense multilingual
knowledge from multiple LS modules into a single shared module with the Fuse
Distillation (FD) technique to improve the efficiency of inference and model
serialization. We show that our LMS method significantly outperforms previous
LS methods and MoE methods with the same amount of extra parameters, e.g., 1.73
BLEU points over the Switch Transformer on many-to-many multilingual machine
translation. Importantly, LMS is able to have comparable translation
performance with much fewer parameters.
- Abstract(参考訳): 言語固有の(LS)モジュールを組み込むことは、多言語機械翻訳の性能を高めるための実証された方法である。
このアプローチはFLOPをインフレしないため、Mixture-of-Experts (MoE)と似ている。
しかしながら、数百の言語(専門家)に対するこのアプローチのスケーラビリティは、完全連結層でフルランク行列によって導入されたパラメータの数が制限されるため、管理できない傾向がある。
本稿では,Language-Specific Matrix Synthesis (LMS)法について述べる。
このアプローチは、フルランク行列を近似するために、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
さらに,複数のLSモジュールからの多言語知識をFuse Distillation (FD)技術で単一の共有モジュールに凝縮し,推論とモデルシリアライゼーションの効率化を図る。
LMS法は, 多数の多言語機械翻訳において, Switch Transformer 上の 1.73 BLEU 点と同一量の余剰パラメータで, 従来のLS法と MoE 法を著しく上回ることを示す。
重要なことに、lmsはより少ないパラメータで同等の翻訳性能を得ることができる。
関連論文リスト
- Do Large Language Model Understand Multi-Intent Spoken Language ? [5.894722183922689]
この研究は、多言語言語理解(SLU)にLarge Language Models(LLM)を活用することで、著しい進歩を示す。
我々の革新的な技術は、マルチインテリジェントSLU環境におけるLLMアプリケーション専用のエンティティスロットを再構成する。
LM-MixATISとLM-MixSNIPSと呼ばれるデータセットは、既存のベンチマークから作成されている。
論文 参考訳(メタデータ) (2024-03-07T13:30:52Z) - Direct Preference Optimization for Neural Machine Translation with
Minimum Bayes Risk Decoding [16.724130684738697]
本稿では、最近開発された強化学習(RL)技術、直接選好最適化(DPO)を用いて、多言語大言語モデル(MLLM)を微調整する方法を示す。
本モデルでは, 優先最適化のない基本MLLMと比較して, 複数のNMTテストセットの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-14T18:43:51Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - mPMR: A Multilingual Pre-trained Machine Reader at Scale [58.734479274520446]
Multilingual Pre-trained Machine Reader (mPMR)は、MRC(Multilingual Machine Read Comprehension)スタイルの事前学習のための新しい手法である。
mPMRは、自然言語理解(NLU)を実行するために、多言語事前学習言語モデル(mPLM)をガイドすることを目的としている。
mPMRはまた、言語間スパン抽出とシーケンス分類に対処するための統一的な解決器も提供する。
論文 参考訳(メタデータ) (2023-05-23T03:40:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Checks and Strategies for Enabling Code-Switched Machine Translation [22.67264032644644]
コードスイッチングは多言語話者の間で共通する現象であり、単一の会話の文脈内で2つ以上の言語間の交替が発生する。
この研究は、コードスイッチされたテキストを処理する多言語ニューラルネットワーク翻訳(NMT)モデルの能力について検討する。
論文 参考訳(メタデータ) (2022-10-11T02:25:21Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Serial or Parallel? Plug-able Adapter for multilingual machine
translation [15.114588783601466]
多言語機械翻訳のためのデフュージョン適応を付加したトランスフォーマーモデルであるPAMを提案する。
PAMは、単語と中間表現を言語固有のものに移すための埋め込みと層アダプタで構成されている。
IWSLT、OPUS-100、WMTベンチマークの実験結果から、メソッドは強力な競合相手よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-04-16T14:58:28Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。