論文の概要: Knowledge Distillation for Speech Denoising by Latent Representation Alignment with Cosine Distance
- arxiv url: http://arxiv.org/abs/2505.03442v1
- Date: Tue, 06 May 2025 11:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.352878
- Title: Knowledge Distillation for Speech Denoising by Latent Representation Alignment with Cosine Distance
- Title(参考訳): 子音距離を考慮した潜在表現アライメントによる音声認識のための知識蒸留
- Authors: Diep Luong, Mikko Heikkinen, Konstantinos Drossos, Tuomas Virtanen,
- Abstract要約: 本稿では,よく知られたデノナイジング・オートエンコーダ・フレームワークを利用して,この問題に対処する手法を提案し,評価する。
提案手法により, 学生は, 学習者に対して, 学習者に対して, より良く, かつ, ミスマッチ状態も維持できることが示唆された。
- 参考スコア(独自算出の注目度): 9.6846413601423
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech denoising is a generally adopted and impactful task, appearing in many common and everyday-life use cases. Although there are very powerful methods published, most of those are too complex for deployment in everyday and low-resources computational environments, like hand-held devices, intelligent glasses, hearing aids, etc. Knowledge distillation (KD) is a prominent way for alleviating this complexity mismatch and is based on the transferring/distilling of knowledge from a pre-trained complex model, the teacher, to another less complex one, the student. Existing KD methods for speech denoising are based on processes that potentially hamper the KD by bounding the learning of the student to the distribution, information ordering, and feature dimensionality learned by the teacher. In this paper, we present and assess a method that tries to treat this issue, by exploiting the well-known denoising-autoencoder framework, the linear inverted bottlenecks, and the properties of the cosine similarity. We use a public dataset and conduct repeated experiments with different mismatching scenarios between the teacher and the student, reporting the mean and standard deviation of the metrics of our method and another, state-of-the-art method that is used as a baseline. Our results show that with the proposed method, the student can perform better and can also retain greater mismatching conditions compared to the teacher.
- Abstract(参考訳): 発声は一般的に採用され、影響を与えやすい課題であり、多くの日常的・日常的なユースケースに現れる。
非常に強力な方法が公開されているが、その多くは、ハンドヘルドデバイス、インテリジェントグラス、補聴器など、日常的および低リソースの計算環境へのデプロイには複雑すぎる。
知識蒸留(KD)は、この複雑さのミスマッチを緩和するための顕著な方法であり、事前訓練された複雑なモデルである教師から、より複雑なモデルである学生への知識の移譲と蒸留に基づいている。
既存の音声認識のためのKD手法は、教師が学習した分布、情報順序、特徴次元に生徒の学習を束縛することで、KDを阻害する可能性のあるプロセスに基づいている。
本稿では,よく知られたデノナイジング・オートエンコーダ・フレームワーク,線形反転ボトルネック,コサイン類似性の特性を利用して,この問題に対処する手法を提案し,評価する。
我々は,教師と学生の間で異なるミスマッチシナリオを繰り返す実験を行い,本手法のメトリクスの平均および標準偏差と,ベースラインとして使用される別の最先端手法を報告する。
提案手法により, 学生は, 学習者に対して, 学習者に対して, より良く, かつ, ミスマッチ状態も維持できることが示唆された。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - DIDA: Denoised Imitation Learning based on Domain Adaptation [28.36684781402964]
ノイズのあるデータから学習するためには、模倣者が必要とされるLND(Learning from Noisy Demonstrations)の問題に焦点を当てる。
本稿では、雑音レベルと専門知識レベルを区別する2つの識別器を設計する、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案する。
MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。
論文 参考訳(メタデータ) (2024-04-04T11:29:05Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。