Fugu-MT 論文翻訳(概要): Multi-View Attention Transfer for Efficient Speech Enhancement

論文の概要: Multi-View Attention Transfer for Efficient Speech Enhancement

arxiv url: http://arxiv.org/abs/2208.10367v1
Date: Mon, 22 Aug 2022 14:47:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 14:45:50.101625
Title: Multi-View Attention Transfer for Efficient Speech Enhancement
Title（参考訳）: 効率的な音声強調のための多視点アテンション転送
Authors: Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, Sung Won Han
Abstract要約: 特徴量に基づく蒸留であるマルチビューアテンショントランスファー(MV-AT)を提案し、時間領域における効率的な音声強調モデルを得る。 MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。
参考スコア（独自算出の注目度）: 1.6932706284468382
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent deep learning models have achieved high performance in speech enhancement; however, it is still challenging to obtain a fast and low-complexity model without significant performance degradation. Previous knowledge distillation studies on speech enhancement could not solve this problem because their output distillation methods do not fit the speech enhancement task in some aspects. In this study, we propose multi-view attention transfer (MV-AT), a feature-based distillation, to obtain efficient speech enhancement models in the time domain. Based on the multi-view features extraction model, MV-AT transfers multi-view knowledge of the teacher network to the student network without additional parameters. The experimental results show that the proposed method consistently improved the performance of student models of various sizes on the Valentini and deep noise suppression (DNS) datasets. MANNER-S-8.1GF with our proposed method, a lightweight model for efficient deployment, achieved 15.4x and 4.71x fewer parameters and floating-point operations (FLOPs), respectively, compared to the baseline model with similar performance.
Abstract（参考訳）: 近年の深層学習モデルは、音声強調において高い性能を達成しているが、性能を著しく低下させることなく、高速で低複雑さのモデルを得るのは難しい。従来の音声強調に関する知識蒸留研究では,その出力蒸留法が音声強調作業に適合しないため,この問題を解決できなかった。本研究では,時間領域における効率的な音声強調モデルを得るために,特徴量に基づく蒸留方式であるマルチビューアテンショントランスファー(MV-AT)を提案する。 MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。実験結果から,提案手法は,バレンティーニおよび深部雑音抑圧(dns)データセット上での様々な大きさの学生モデルの性能を一貫して向上させた。提案手法を用いたMANNER-S-8.1GFは,提案手法と同等の性能を持つベースラインモデルと比較して,パラメータが15.4倍,パラメータが4.71倍になった。

関連論文リスト

An Effective Training Framework for Light-Weight Automatic Speech Recognition Models [10.295690160466936]
一つの大モデルから複数の小さなモデルを生成することができる2段階の効率的な表現学習手法を提案する。提案手法は,単語誤り率を最大12.54%向上させる3倍の学習速度を実現する。
論文参考訳（メタデータ） (2025-05-22T17:55:09Z)
Scalable Model Merging with Progressive Layer-wise Distillation [17.521794641817642]
ProDistill (Progressive Layer-wise Distillation) を導入する。 ProDistillは、視力とNLUタスクの6.14%と6.61%の改善を達成している。
論文参考訳（メタデータ） (2025-02-18T10:15:18Z)
Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文参考訳（メタデータ） (2024-12-27T04:37:06Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。 TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文参考訳（メタデータ） (2024-09-22T21:08:37Z)
Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文参考訳（メタデータ） (2024-06-11T18:22:59Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
UniFL: Improve Stable Diffusion via Unified Feedback Learning [51.18278664629821]
提案するUniFLは,フィードバック学習を活用して拡張モデルを包括的に拡張する統合フレームワークである。 UniFLには、視覚的品質を高める知覚的フィードバック学習、美的魅力を改善する分離されたフィードバック学習、推論速度を最適化する敵対的フィードバック学習という3つの重要な要素が組み込まれている。詳細な実験と広範囲なユーザスタディにより,生成したモデルの品質と高速化の両面において,提案手法の優れた性能が検証された。
論文参考訳（メタデータ） (2024-04-08T15:14:20Z)
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-01-29T08:13:40Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップこれらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。 DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文参考訳（メタデータ） (2023-05-25T04:49:34Z)
Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。 We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-02-24T17:15:39Z)
Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文参考訳（メタデータ） (2022-12-01T17:31:42Z)
Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文参考訳（メタデータ） (2020-10-02T05:52:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。