論文の概要: Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity
Matching
- arxiv url: http://arxiv.org/abs/2209.05869v1
- Date: Tue, 13 Sep 2022 10:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:47:27.282273
- Title: Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity
Matching
- Title(参考訳): 言語間セマンティック類似マッチングのための多段階蒸留フレームワーク
- Authors: Kunbo Ding, Weijie Liu, Yuejian Fang, Zhe Zhao, Qi Ju, Xuefeng Yang
- Abstract要約: 言語間知識蒸留は、言語間類似性マッチングタスクのための事前訓練されたモデルの性能を著しく向上させることができる。
小型ながら高性能なクロスランガルモデルを構築するための多段階蒸留フレームワークを提案する。
提案手法では,XLM-RとMiniLMのサイズを50%以上圧縮できるが,性能は1%程度しか低下しない。
- 参考スコア(独自算出の注目度): 12.833080411053842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous studies have proved that cross-lingual knowledge distillation can
significantly improve the performance of pre-trained models for cross-lingual
similarity matching tasks. However, the student model needs to be large in this
operation. Otherwise, its performance will drop sharply, thus making it
impractical to be deployed to memory-limited devices. To address this issue, we
delve into cross-lingual knowledge distillation and propose a multi-stage
distillation framework for constructing a small-size but high-performance
cross-lingual model. In our framework, contrastive learning, bottleneck, and
parameter recurrent strategies are combined to prevent performance from being
compromised during the compression process. The experimental results
demonstrate that our method can compress the size of XLM-R and MiniLM by more
than 50\%, while the performance is only reduced by about 1%.
- Abstract(参考訳): これまでの研究では、言語間知識の蒸留により、言語間類似性マッチングタスクのための事前学習モデルの性能が著しく向上することが示されている。
しかし、この運用には学生モデルが大きい必要がある。
そうでなければ、パフォーマンスは急激に低下し、メモリ制限されたデバイスにデプロイするのは現実的ではない。
この問題に対処するため,我々は言語間知識蒸留を考察し,小型かつ高性能な言語間モデルを構築するための多段階蒸留フレームワークを提案する。
本フレームワークでは, コントラスト学習, ボトルネック, パラメータリカレント戦略を組み合わせることで, 圧縮処理中に性能が損なわれるのを防ぐ。
実験の結果,XLM-R と MiniLM のサイズを 50 % 以上圧縮できるが,性能は 1% 程度しか低下しないことがわかった。
関連論文リスト
- Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration [31.50005609235654]
本研究は,無訓練トークン還元研究の現況を再考する。
トークン還元を3つの異なる段階に分解する「フィルタ相関圧縮」パラダイムを提案する。
10のベンチマークでの実験結果から,本手法は最大82.4%のFLOP削減が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T18:53:51Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Multi-Level Contrastive Learning for Cross-Lingual Alignment [35.33431650608965]
マルチリンガルBERT(mBERT)のような言語間事前学習モデルは、様々な言語間下流のNLPタスクにおいて大きな性能を発揮している。
本稿では,事前学習モデルの言語間能力の向上を図るために,マルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-26T07:14:20Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。