論文の概要: USAD: Universal Speech and Audio Representation via Distillation
- arxiv url: http://arxiv.org/abs/2506.18843v1
- Date: Mon, 23 Jun 2025 17:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.094877
- Title: USAD: Universal Speech and Audio Representation via Distillation
- Title(参考訳): USAD: 蒸留によるユニバーサル音声と音声表現
- Authors: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu,
- Abstract要約: Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。
USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
- 参考スコア(独自算出の注目度): 56.91647396619358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has revolutionized audio representations, yet models often remain domain-specific, focusing on either speech or non-speech tasks. In this work, we present Universal Speech and Audio Distillation (USAD), a unified approach to audio representation learning that integrates diverse audio types - speech, sound, and music - into a single model. USAD employs efficient layer-to-layer distillation from domain-specific SSL models to train a student on a comprehensive audio dataset. USAD offers competitive performance across various benchmarks and datasets, including frame and instance-level speech processing tasks, audio tagging, and sound classification, achieving near state-of-the-art results with a single encoder on SUPERB and HEAR benchmarks.
- Abstract(参考訳): 自己教師付き学習(SSL)は音声表現に革命をもたらしたが、モデルはしばしばドメイン固有であり、音声や非音声のタスクに重点を置いている。
本研究では,多様な音声タイプ(音声,音声,音楽)を単一のモデルに統合した,音声表現学習のための統一的なアプローチであるユニバーサル音声・音声蒸留(USAD)を提案する。
USADは、ドメイン固有のSSLモデルから効率的な層間蒸留を使用して、学生を包括的なオーディオデータセットでトレーニングする。
USADは、フレームやインスタンスレベルの音声処理タスク、オーディオタグ付け、音の分類など、さまざまなベンチマークやデータセットの競合性能を提供し、SUPERBとHEARベンチマークの単一エンコーダで最先端の結果を達成している。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。