論文の概要: Multi-View Attention Transfer for Efficient Speech Enhancement
- arxiv url: http://arxiv.org/abs/2208.10367v1
- Date: Mon, 22 Aug 2022 14:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:45:50.101625
- Title: Multi-View Attention Transfer for Efficient Speech Enhancement
- Title(参考訳): 効率的な音声強調のための多視点アテンション転送
- Authors: Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, Sung Won
Han
- Abstract要約: 特徴量に基づく蒸留であるマルチビューアテンショントランスファー(MV-AT)を提案し、時間領域における効率的な音声強調モデルを得る。
MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。
- 参考スコア(独自算出の注目度): 1.6932706284468382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep learning models have achieved high performance in speech
enhancement; however, it is still challenging to obtain a fast and
low-complexity model without significant performance degradation. Previous
knowledge distillation studies on speech enhancement could not solve this
problem because their output distillation methods do not fit the speech
enhancement task in some aspects. In this study, we propose multi-view
attention transfer (MV-AT), a feature-based distillation, to obtain efficient
speech enhancement models in the time domain. Based on the multi-view features
extraction model, MV-AT transfers multi-view knowledge of the teacher network
to the student network without additional parameters. The experimental results
show that the proposed method consistently improved the performance of student
models of various sizes on the Valentini and deep noise suppression (DNS)
datasets. MANNER-S-8.1GF with our proposed method, a lightweight model for
efficient deployment, achieved 15.4x and 4.71x fewer parameters and
floating-point operations (FLOPs), respectively, compared to the baseline model
with similar performance.
- Abstract(参考訳): 近年の深層学習モデルは、音声強調において高い性能を達成しているが、性能を著しく低下させることなく、高速で低複雑さのモデルを得るのは難しい。
従来の音声強調に関する知識蒸留研究では,その出力蒸留法が音声強調作業に適合しないため,この問題を解決できなかった。
本研究では,時間領域における効率的な音声強調モデルを得るために,特徴量に基づく蒸留方式であるマルチビューアテンショントランスファー(MV-AT)を提案する。
MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。
実験結果から,提案手法は,バレンティーニおよび深部雑音抑圧(dns)データセット上での様々な大きさの学生モデルの性能を一貫して向上させた。
提案手法を用いたMANNER-S-8.1GFは,提案手法と同等の性能を持つベースラインモデルと比較して,パラメータが15.4倍,パラメータが4.71倍になった。
関連論文リスト
- EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - UniFL: Improve Stable Diffusion via Unified Feedback Learning [51.18278664629821]
提案するUniFLは,フィードバック学習を活用して拡張モデルを包括的に拡張する統合フレームワークである。
UniFLには、視覚的品質を高める知覚的フィードバック学習、美的魅力を改善する分離されたフィードバック学習、推論速度を最適化する敵対的フィードバック学習という3つの重要な要素が組み込まれている。
詳細な実験と広範囲なユーザスタディにより,生成したモデルの品質と高速化の両面において,提案手法の優れた性能が検証された。
論文 参考訳(メタデータ) (2024-04-08T15:14:20Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。