論文の概要: Deep versus Wide: An Analysis of Student Architectures for Task-Agnostic
Knowledge Distillation of Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2207.06867v1
- Date: Thu, 14 Jul 2022 12:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 14:59:49.480841
- Title: Deep versus Wide: An Analysis of Student Architectures for Task-Agnostic
Knowledge Distillation of Self-Supervised Speech Models
- Title(参考訳): ディープ対ワイド:自己監督音声モデルのタスク非依存的知識蒸留のための学生アーキテクチャの分析
- Authors: Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka
- Abstract要約: 自己教師付き学習(SSL)は、いくつかの音声下流タスクで高いパフォーマンスを持つ、非常に有望なアプローチであると見なされている。
圧縮手法を適用することにより、性能を著しく低下させることなく、コンパクトなSSLモデルを作成することが望ましい。
本稿では,小図形モデルの内部表現の深さと幅の変化がどのように影響するかを実験的に検討する。
- 参考スコア(独自算出の注目度): 18.22157315310462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) is seen as a very promising approach with high
performance for several speech downstream tasks. Since the parameters of SSL
models are generally so large that training and inference require a lot of
memory and computational cost, it is desirable to produce compact SSL models
without a significant performance degradation by applying compression methods
such as knowledge distillation (KD). Although the KD approach is able to shrink
the depth and/or width of SSL model structures, there has been little research
on how varying the depth and width impacts the internal representation of the
small-footprint model. This paper provides an empirical study that addresses
the question. We investigate the performance on SUPERB while varying the
structure and KD methods so as to keep the number of parameters constant; this
allows us to analyze the contribution of the representation introduced by
varying the model architecture. Experiments demonstrate that a certain depth is
essential for solving content-oriented tasks (e.g. automatic speech
recognition) accurately, whereas a certain width is necessary for achieving
high performance on several speaker-oriented tasks (e.g. speaker
identification). Based on these observations, we identify, for SUPERB, a more
compressed model with better performance than previous studies.
- Abstract(参考訳): 自己教師付き学習(SSL)は、いくつかの音声下流タスクで高いパフォーマンスを持つ、非常に有望なアプローチであると考えられている。
sslモデルのパラメータは一般に、トレーニングや推論が多くのメモリと計算コストを必要とするほど大きいため、知識蒸留(kd)のような圧縮手法を適用することで、大幅な性能低下を伴わないコンパクトsslモデルを作成することが望ましい。
KDアプローチはSSLモデル構造の深さと幅を縮小することができるが、その深さと幅の変化が小さなフットプリントモデルの内部表現に与える影響についてはほとんど研究されていない。
本稿では,この問題に対処する実証的研究を行う。
本研究では,パラメータ数を一定に保ちながら,構造やkd法を変化させながらsuperbの性能を検証し,モデルアーキテクチャの変化による表現の寄与度を分析する。
実験では、ある深さがコンテンツ指向タスク(例えば、自動音声認識)を正確に解くのに不可欠であることを示し、ある幅は複数の話者指向タスク(例えば、話者識別)で高い性能を達成するのに必要である。
これらの観察に基づいて、従来の研究よりも優れたパフォーマンスを持つより圧縮されたモデルを見出した。
関連論文リスト
- Efficient Training of Self-Supervised Speech Foundation Models on a
Compute Budget [57.807614181024114]
本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。
モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。
論文 参考訳(メタデータ) (2024-09-09T10:36:42Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Leveraging Semantic Information for Efficient Self-Supervised Emotion
Recognition with Audio-Textual Distilled Models [15.16865739526702]
本稿では,HuBERTをSSLモデルの例として捉え,各レイヤの関連性を分析して音声感情認識を行う。
浅い層は覚醒的認識においてより重要であり,深い層は原子価にとってより重要であることを示す。
本稿では,大規模なSSLモデルのトレーニング可能なパラメータの20%しか持たないオーディオテキスト蒸留SSLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-30T16:29:33Z) - Deciphering the Projection Head: Representation Evaluation
Self-supervised Learning [6.375931203397043]
自己教師付き学習(SSL)は、ラベルなしで固有の特徴を学習することを目的としている。
プロジェクションヘッドは、ダウンストリームタスクのパフォーマンスを改善する上で、常に重要な役割を果たす。
本稿では,表現と投影ベクトルとのショートカット接続を構築するSSLモデルにおける表現評価設計(RED)を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:13:53Z) - Exploring Effective Distillation of Self-Supervised Speech Models for
Automatic Speech Recognition [5.802425107635222]
SSLモデルの小型化は、実用価値の重要な研究方向となっている。
自動音声認識(ASR)のための HuBERT-based SSL モデルの有効蒸留について検討する。
特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERT の差別的損失を導入した。
論文 参考訳(メタデータ) (2022-10-27T17:21:14Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。