論文の概要: Extracting General-use Transformers for Low-resource Languages via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2501.12660v1
- Date: Wed, 22 Jan 2025 05:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:13.053417
- Title: Extracting General-use Transformers for Low-resource Languages via Knowledge Distillation
- Title(参考訳): 知識蒸留による低リソース言語用汎用変換器の抽出
- Authors: Jan Christian Blaise Cruz, Alham Fikri Aji,
- Abstract要約: 大規模多言語変換器(MMT)を用いた単一言語変換器の簡易蒸留法を提案する。
ケーススタディとしてTagalogを用いて、より効率的なベンチマークタスクにおいて、より小さな単一言語モデルが強力なベースラインを持つオンパーで実行可能であることを示す。
- 参考スコア(独自算出の注目度): 13.13660649875383
- License:
- Abstract: In this paper, we propose the use of simple knowledge distillation to produce smaller and more efficient single-language transformers from Massively Multilingual Transformers (MMTs) to alleviate tradeoffs associated with the use of such in low-resource settings. Using Tagalog as a case study, we show that these smaller single-language models perform on-par with strong baselines in a variety of benchmark tasks in a much more efficient manner. Furthermore, we investigate additional steps during the distillation process that improves the soft-supervision of the target language, and provide a number of analyses and ablations to show the efficacy of the proposed method.
- Abstract(参考訳): 本稿では,多言語変換器(MMT)からより小型で効率的な単一言語変換器を製造し,低リソース環境での使用に伴うトレードオフを軽減するため,簡単な知識蒸留方式を提案する。
ケーススタディとしてTagalogを用いて、より効率的なベンチマークタスクにおいて、より小さな単一言語モデルが強力なベースラインを持つオンパーで実行可能であることを示す。
さらに, 対象言語のソフトスーパービジョンを向上する蒸留工程における追加ステップについて検討し, 提案手法の有効性を示すために, 分析とアブリケーションを多数提供した。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - A Comparative Analysis of Task-Agnostic Distillation Methods for
Compressing Transformer Language Models [5.818750175599656]
トランスフォーマー言語モデルのタスクに依存しない(汎用的な)蒸留法を再現し,比較し,解析する。
我々の研究対象は、出力分布(OD)転送、様々なレイヤマッピング戦略による隠れ状態(HS)転送、MiniLMv2に基づくマルチヘッドアテンション(MHA)転送である。
論文 参考訳(メタデータ) (2023-10-13T01:00:15Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual
Machine Translation [8.7660229706359]
多言語機械翻訳のためのモデルキャパシティをスケールするための計算効率のよい方法として,Mixture of Experts (MoE)モデルが広く知られている。
低リソースタスクにおけるMoEモデルの性能向上と過度な適合を防止する効果的な正規化戦略を示す。
論文 参考訳(メタデータ) (2022-12-15T01:06:55Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - An Exploration of Data Augmentation Techniques for Improving English to
Tigrinya Translation [21.636157115922693]
補助データを生成する効果的な方法は、ターゲット言語文のバック翻訳です。
本稿では,Tigrinyaを事例として,合成原文を生成するバックトランスレーション法について検討する。
論文 参考訳(メタデータ) (2021-03-31T03:31:09Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine
Translation [5.480070710278571]
文の単純化による自動前処理(APP)によるブラックボックス機械翻訳システムの改善手法を提案する。
まず,ブラックボックスMTシステムによるバックトランスレーションにより,大規模なドメイン内パラフレーズコーパスを自動生成する手法を提案する。
この前処理によって、非前処理のソース文と比較して翻訳性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-22T14:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。