論文の概要: CoLLD: Contrastive Layer-to-layer Distillation for Compressing
Multilingual Pre-trained Speech Encoders
- arxiv url: http://arxiv.org/abs/2309.07707v1
- Date: Thu, 14 Sep 2023 13:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 14:48:06.999017
- Title: CoLLD: Contrastive Layer-to-layer Distillation for Compressing
Multilingual Pre-trained Speech Encoders
- Title(参考訳): colld:多言語事前学習音声エンコーダ圧縮のための造影層間蒸留
- Authors: Heng-Jui Chang, Ning Dong, Ruslan Mavlyutov, Sravya Popuri, Yu-An
Chung
- Abstract要約: 大規模自己教師型事前学習音声エンコーダは、音声認識や翻訳タスクにおいて従来の手法よりも優れていた。
新しいタスクのための新しいエンコーダを構築し、デバイス上のアプリケーションにデプロイすることは不可能である。
本研究では,事前学習した音声エンコーダを圧縮する新しい知識蒸留法であるContrastive Layer-to-layer Distillation (CoLLD)を提案する。
- 参考スコア(独自算出の注目度): 19.32466171141613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale self-supervised pre-trained speech encoders outperform
conventional approaches in speech recognition and translation tasks. Due to the
high cost of developing these large models, building new encoders for new tasks
and deploying them to on-device applications are infeasible. Prior studies
propose model compression methods to address this issue, but those works focus
on smaller models and less realistic tasks. Thus, we propose Contrastive
Layer-to-layer Distillation (CoLLD), a novel knowledge distillation method to
compress pre-trained speech encoders by leveraging masked prediction and
contrastive learning to train student models to copy the behavior of a large
teacher model. CoLLD outperforms prior methods and closes the gap between small
and large models on multilingual speech-to-text translation and recognition
benchmarks.
- Abstract(参考訳): 大規模自己教師付き事前学習音声エンコーダは、音声認識や翻訳タスクにおける従来のアプローチを上回っている。
これらの大規模モデルを開発するコストが高いため、新しいタスクのための新しいエンコーダの構築と、デバイス上のアプリケーションへのデプロイは不可能である。
先行研究では、この問題に対処するためにモデル圧縮手法を提案するが、これらはより小さなモデルとより現実的なタスクに焦点を当てている。
そこで我々は,マスク付き予測とコントラスト学習を利用して,事前学習した音声エンコーダを圧縮する新しい知識蒸留法であるContrastive Layer-to-layer Distillation (CoLLD)を提案する。
CoLLDは従来の手法よりも優れており、多言語音声テキスト翻訳および認識ベンチマークにおける小型モデルと大規模モデルのギャップを埋める。
関連論文リスト
- Seal: Advancing Speech Language Models to be Few-Shot Learners [17.03216447533895]
本稿では,音声モデルの略語であるシールモデルを紹介する。
フリーズ言語モデルデコーダでフリーズ音声学習者をブリッジするプロジェクタを訓練するために、Kulback-Leibler分散損失を行う新しいアライメント手法が組み込まれている。
結果のSealモデルは、2つの音声理解タスクで数ショットのエンコーダとして頑健な性能を示す。
論文 参考訳(メタデータ) (2024-07-20T13:28:12Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining [0.5919433278490629]
BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は不十分である。
論文 参考訳(メタデータ) (2024-01-29T03:25:11Z) - Inter-connection: Effective Connection between Pre-trained Encoder and
Decoder for Speech Translation [10.103202030679844]
本稿では,音声事前学習モデルの各層から情報を集約する相互接続機構を提案する。
この機構は, 音声事前学習モデルが凍結した場合に, パラメータを2K増加させることで, en-de, en-ja, en-zhでBLEUを約2ポイント増加させた。
論文 参考訳(メタデータ) (2023-05-26T13:01:29Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。