論文の概要: Adaptive Slimming for Scalable and Efficient Speech Enhancement
- arxiv url: http://arxiv.org/abs/2507.04879v1
- Date: Mon, 07 Jul 2025 11:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.391133
- Title: Adaptive Slimming for Scalable and Efficient Speech Enhancement
- Title(参考訳): スケーラブルで効率的な音声強調のための適応スライミング
- Authors: Riccardo Miccini, Minje Kim, Clément Laroche, Luca Pezzarossa, Paris Smaragdis,
- Abstract要約: 音声強調(SE)は、音声認識、リアルタイムコミュニケーション、補聴器、その他の音声品質が重要となるアプリケーションを可能にする。
我々は、人気のあるSEアーキテクチャであるDEMUCSに動的スリム化を導入し、スケーラブルでインプット・アダプティブにします。
- 参考スコア(独自算出の注目度): 18.719541959978052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech enhancement (SE) enables robust speech recognition, real-time communication, hearing aids, and other applications where speech quality is crucial. However, deploying such systems on resource-constrained devices involves choosing a static trade-off between performance and computational efficiency. In this paper, we introduce dynamic slimming to DEMUCS, a popular SE architecture, making it scalable and input-adaptive. Slimming lets the model operate at different utilization factors (UF), each corresponding to a different performance/efficiency trade-off, effectively mimicking multiple model sizes without the extra storage costs. In addition, a router subnet, trained end-to-end with the backbone, determines the optimal UF for the current input. Thus, the system saves resources by adaptively selecting smaller UFs when additional complexity is unnecessary. We show that our solution is Pareto-optimal against individual UFs, confirming the benefits of dynamic routing. When training the proposed dynamically-slimmable model to use 10% of its capacity on average, we obtain the same or better speech quality as the equivalent static 25% utilization while reducing MACs by 29%.
- Abstract(参考訳): 音声強調(SE)は、音声認識、リアルタイムコミュニケーション、補聴器、その他の音声品質が重要となるアプリケーションを可能にする。
しかしながら、リソース制約のあるデバイスにそのようなシステムをデプロイするには、パフォーマンスと計算効率の静的トレードオフを選択する必要がある。
本稿では、人気のあるSEアーキテクチャであるDEMUCSに動的スリム化を導入し、スケーラブルでインプット・アダプティブにする。
スリム化により、モデルは異なる利用要因(UF)で動作し、それぞれが異なるパフォーマンス/効率のトレードオフに対応し、余分なストレージコストを伴わずに複数のモデルサイズを効果的に模倣することができる。
さらに、バックボーンでエンドツーエンドに訓練されたルータサブネットが、現在の入力に対して最適なUFを決定する。
これにより、余分な複雑さが不要な場合には、より小さなUFを適応的に選択することでリソースを節約できる。
提案手法は個々のUFに対するPareto-optimalであり,動的ルーティングの利点を確認している。
提案する動的スリム化モデルを用いて平均で10%のキャパシティを使用する場合,MACを29%削減し,等価な静的25%利用量と同等あるいは良質な音声品質が得られる。
関連論文リスト
- Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。
FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。
各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文 参考訳(メタデータ) (2025-01-24T11:19:07Z) - Scalable Speech Enhancement with Dynamic Channel Pruning [0.44998333629984877]
遠隔協調環境における生産性向上には,音声強調(SE)が不可欠である。
ディープラーニングモデルはSEでは非常に効果的であるが、その計算要求により組み込みシステムでは実用的ではない。
音声領域にDynamic Channel Pruningを導入し,それをSEの独自の畳み込みアーキテクチャに適用する。
論文 参考訳(メタデータ) (2024-12-22T18:21:08Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Joint Optimization of Energy Consumption and Completion Time in
Federated Learning [16.127019859725785]
フェデレートラーニング(FL)は、プライバシ保護の特性から興味深い分散機械学習アプローチである。
エネルギーと実行遅延の間のトレードオフをバランスさせるアルゴリズムを定式化し、異なる要求とアプリケーションシナリオに対応する。
論文 参考訳(メタデータ) (2022-09-29T16:05:28Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。