論文の概要: UniWhisper: Efficient Continual Multi-task Training for Robust Universal Audio Representation
- arxiv url: http://arxiv.org/abs/2602.21772v1
- Date: Wed, 25 Feb 2026 10:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.800064
- Title: UniWhisper: Efficient Continual Multi-task Training for Robust Universal Audio Representation
- Title(参考訳): UniWhisper:ロバストなユニバーサルオーディオ表現のための効率的な連続マルチタスクトレーニング
- Authors: Yuxuan Chen, Peize He, Haoyuan Xu, Junzi Zhang,
- Abstract要約: 普遍的な音声表現は、環境音や音楽に対するきめ細かい音声の手がかりと高レベルな意味をとらえるべきである。
提案するUniWhisperは,異種音声タスクを統一的な命令・回答形式に変換する,効率的な連続マルチタスク学習フレームワークである。
音声、環境音、音楽にまたがる20のタスクについて、浅いプローブとk-nearest neighbors(kNN)を用いて38k時間の公開音声でトレーニングし、エンコーダを評価する。
- 参考スコア(独自算出の注目度): 11.85421854795319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A universal audio representation should capture fine-grained speech cues and high-level semantics for environmental sounds and music in a single encoder. Existing encoders often excel in one domain but degrade in others. We propose UniWhisper, an efficient continual multi-task training framework that casts heterogeneous audio tasks into a unified instruction and answer format. This enables standard next-token training without task-specific heads and losses. We train it on 38k hours of public audio and assess the encoder using shallow MLP probes and k-nearest neighbors (kNN) on 20 tasks spanning speech, environmental sound, and music. UniWhisper reaches normalized weighted averages of 0.81 with MLP probes and 0.61 with kNN, compared to 0.64 and 0.46 for Whisper, while retaining strong speech performance.
- Abstract(参考訳): 普遍的な音声表現は、単一のエンコーダで環境音や音楽のきめ細かい音声キューと高レベルの意味をキャプチャするべきである。
既存のエンコーダは、しばしば一つのドメインで優れているが、他のドメインでは劣化する。
提案するUniWhisperは,異種音声タスクを統一的な命令・回答形式に変換する,効率的な連続マルチタスク学習フレームワークである。
これにより、タスク固有のヘッドとロスなしで、標準的な次の学習が可能になる。
音声、環境音、音楽にまたがる20のタスクに対して、浅いMLPプローブとk-nearest neighbors(kNN)を用いて、38k時間の公開音声でトレーニングし、エンコーダを評価する。
UniWhisper は MLP プローブで 0.81 、kNNで 0.61 の正規化平均に達し、Whisper では 0.64 と 0.46 である。
関連論文リスト
- Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。
本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T08:35:27Z) - AMAuT: A Flexible and Efficient Multiview Audio Transformer Framework Trained from Scratch [0.3728263002609659]
本稿では,AMAuT(Augmentation-driven Multiview Audio Transformer)を紹介する。
AMAuTは任意のサンプルレートとオーディオ長をサポートしながら、事前訓練された重量への依存を取り除く。
AudioMNIST、SpeechCommands V1 & V2、VocalSound、CochlSceneの5つの公開ベンチマークの実験では、AMAuTが99.8%のアキュラシーを達成したことが示されている。
論文 参考訳(メタデータ) (2025-10-22T08:41:59Z) - USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。
USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文 参考訳(メタデータ) (2025-06-23T17:02:00Z) - AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - EnCodecMAE: Leveraging neural codecs for universal audio representation learning [16.590638305972632]
我々は、音声信号のマスキング表現を提案し、マスクされたセグメントを再構築するためにMAEを訓練する。
本研究では,EnCodecMAEと呼ぶこのアプローチを,音声,音楽,環境音を含む幅広いタスクで評価する。
論文 参考訳(メタデータ) (2023-09-14T02:21:53Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。