論文の概要: Multi-Hypothesis Distillation of Multilingual Neural Translation Models for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2507.21568v2
- Date: Thu, 31 Jul 2025 08:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.70073
- Title: Multi-Hypothesis Distillation of Multilingual Neural Translation Models for Low-Resource Languages
- Title(参考訳): 低音源言語に対する多言語ニューラル翻訳モデルの多相蒸留
- Authors: Aarón Galiano-Jiménez, Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez, Víctor M. Sánchez-Cartagena,
- Abstract要約: 教師モデルのアウトプット分布は学生にとって貴重な洞察をもたらすと我々は主張する。
MHD(Multi-Hypothesis Distillation)は、ソース文毎に複数の翻訳を生成するシーケンスレベルのKD法である。
- 参考スコア(独自算出の注目度): 2.2061683015812026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores sequence-level knowledge distillation (KD) of multilingual pre-trained encoder-decoder translation models. We argue that the teacher model's output distribution holds valuable insights for the student, beyond the approximated mode obtained through beam search (the standard decoding method), and present Multi-Hypothesis Distillation (MHD), a sequence-level KD method that generates multiple translations for each source sentence. This provides a larger representation of the teacher model distribution and exposes the student model to a wider range of target-side prefixes. We leverage $n$-best lists from beam search to guide the student's learning and examine alternative decoding methods to address issues like low variability and the under-representation of infrequent tokens. For low-resource languages, our research shows that while sampling methods may slightly compromise translation quality compared to beam search based approaches, they enhance the generated corpora with greater variability and lexical richness. This ultimately improves student model performance and mitigates the gender bias amplification often associated with KD.
- Abstract(参考訳): 本稿では,多言語事前学習エンコーダ・デコーダ翻訳モデルのシーケンスレベルの知識蒸留(KD)について検討する。
教師モデルの出力分布は、ビームサーチ(標準復号法)によって得られた近似モードを超えて、学生にとって貴重な洞察を与えると論じ、各ソース文に対して複数の翻訳を生成する列レベルのKD法であるMHD(Multi-Hypothesis Distillation)を提案する。
これは、教師モデル分布のより広い表現を提供し、学生モデルをより広い範囲のターゲットサイドプレフィックスに公開する。
我々はビームサーチの$n$-bestリストを利用して、学生の学習をガイドし、低変数や低頻度トークンの表現不足といった問題に対処するための代替デコード手法を検討する。
低リソース言語では、サンプリング手法はビームサーチに基づくアプローチに比べて翻訳品質をわずかに損なう可能性があるが、より可変性と語彙的富性で生成されたコーパスを増強する。
これにより、学生モデルのパフォーマンスが向上し、しばしばKDに関連する男女差の増幅が軽減される。
関連論文リスト
- Multiple Choice Learning of Low Rank Adapters for Language Modeling [40.380297530862656]
本稿では,言語モデルにおける次トーケン予測を拡張する学習手法であるLoRA-MCLを提案する。
本研究では,実環境における視覚的・音声的キャプションタスクについて広範な実験を行い,本手法が生成した出力の多様性と関連性を実証する。
論文 参考訳(メタデータ) (2025-07-14T16:00:51Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multi-Level Knowledge Distillation for Out-of-Distribution Detection in
Text [12.428289757859433]
自己教師付き表現学習は、アウト・オブ・ディストリビューション(OoD)検出に有用な要素であることが証明されている。
本稿では,両OoD検出手法の相補的特性を解析する。
本稿では,その限界を緩和しつつ,その強度を統合した多段階の知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:41:25Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。