論文の概要: Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages
- arxiv url: http://arxiv.org/abs/2406.12739v1
- Date: Tue, 18 Jun 2024 16:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:09:06.914471
- Title: Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages
- Title(参考訳): 200以上の言語で言語間NLUをアンロックするモデル構築のための自己蒸留法
- Authors: Fabian David Schmidt, Philipp Borchert, Ivan Vulić, Goran Glavaš,
- Abstract要約: 機械翻訳モデル(MT)は優れた多言語表現を生成し、低リソース言語でも強力な翻訳性能が得られる。
本研究は,MTエンコーダをサンプル効率のよい自己蒸留法により,言語バックボーンに直接組み込むことにより,両世界のベストを得られる。
MT-LLMは、MTエンコーダから固有の多言語表現アライメントを保持しており、低リソース言語は英語中心のLLMに埋め込まれた豊富な知識を取り入れることができる。
- 参考スコア(独自算出の注目度): 2.53740603524637
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs have become a go-to solution not just for text generation, but also for natural language understanding (NLU) tasks. Acquiring extensive knowledge through language modeling on web-scale corpora, they excel on English NLU, yet struggle to extend their NLU capabilities to underrepresented languages. In contrast, machine translation models (MT) produce excellent multilingual representations, resulting in strong translation performance even for low-resource languages. MT encoders, however, lack the knowledge necessary for comprehensive NLU that LLMs obtain through language modeling training on immense corpora. In this work, we get the best both worlds by integrating MT encoders directly into LLM backbones via sample-efficient self-distillation. The resulting MT-LLMs preserve the inherent multilingual representational alignment from the MT encoder, allowing lower-resource languages to tap into the rich knowledge embedded in English-centric LLMs. Merging the MT encoder and LLM in a single model, we mitigate the propagation of translation errors and inference overhead of MT decoding inherent to discrete translation-based cross-lingual transfer (e.g., translate-test). Evaluation spanning three prominent NLU tasks and 127 predominantly low-resource languages renders MT-LLMs highly effective in cross-lingual transfer. MT-LLMs substantially and consistently outperform translate-test based on the same MT model, showing that we truly unlock multilingual language understanding for LLMs.
- Abstract(参考訳): LLMはテキスト生成だけでなく、自然言語理解(NLU)タスクにも活用されている。
Webスケールのコーパスで言語モデリングを通じて広範な知識を取得することで、彼らは英語のNLUに長けているが、表現不足の言語にNLUの機能を拡張するのに苦労している。
対照的に、機械翻訳モデル(MT)は優れた多言語表現を生成するため、低リソース言語でも強い翻訳性能が得られる。
しかし、MTエンコーダは、LLMが膨大なコーパスの言語モデリングトレーニングを通じて得られる包括的NLUに必要な知識を欠いている。
本研究では, MTエンコーダを試料効率のよい自己蒸留法により, LLMバックボーンに直接組み込むことにより, 両世界のベストを得られる。
MT-LLMは、MTエンコーダから固有の多言語表現アライメントを保持し、低リソース言語が英語中心のLLMに埋め込まれた豊富な知識を活用できるようにする。
MTエンコーダとLLMを1つのモデルで組み合わせることで、翻訳エラーの伝播と、離散的な翻訳に基づく言語間変換(例えば、翻訳-テスト)に固有のMT復号の推論オーバーヘッドを軽減する。
3つの顕著なNLUタスクと127の低リソース言語にまたがる評価は、MT-LLMを言語間移動に非常に効果的にする。
MT-LLMは、同じMTモデルに基づいて翻訳テストを大幅に上回り、LLMの多言語言語理解を真に解き放つことを示す。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。