論文の概要: Continual Speech Learning with Fused Speech Features
- arxiv url: http://arxiv.org/abs/2506.01496v2
- Date: Tue, 03 Jun 2025 10:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.184266
- Title: Continual Speech Learning with Fused Speech Features
- Title(参考訳): 融合音声特徴を用いた連続音声認識
- Authors: Guitao Wang, Jinming Zhao, Hao Yang, Guilin Qi, Tongtong Wu, Gholamreza Haffari,
- Abstract要約: 本稿では,現在の音声モデルにおける適応ギャップを埋めることを目的とした,新たな設定ターゲットである連続音声認識を紹介する。
我々は,エンコーダ・デコーダWhisperモデルを用いて音声タスクを生成形式に標準化する。
提案手法は,6つの音声処理タスクにおいて従来の手法よりも精度が向上し,完全再訓練を伴わずに新しい音声処理タスクに適応できることが示唆された。
- 参考スコア(独自算出の注目度): 49.21227244653524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid growth in speech data demands adaptive models, as traditional static methods fail to keep pace with dynamic and diverse speech information. We introduce continuous speech learning, a new set-up targeting at bridging the adaptation gap in current speech models. We use the encoder-decoder Whisper model to standardize speech tasks into a generative format. We integrate a learnable gated-fusion layer on the top of the encoder to dynamically select task-specific features for downstream tasks. Our approach improves accuracy significantly over traditional methods in six speech processing tasks, demonstrating gains in adapting to new speech tasks without full retraining.
- Abstract(参考訳): 音声データの急速な成長は、従来の静的手法が動的で多様な音声情報に追従できないため、適応モデルを必要とする。
本稿では,現在の音声モデルにおける適応ギャップを埋めることを目的とした,新たな設定ターゲットである連続音声認識を紹介する。
我々は,エンコーダ・デコーダWhisperモデルを用いて音声タスクを生成形式に標準化する。
我々はエンコーダの上部に学習可能なゲート融合層を統合し、下流タスクのタスク固有の機能を動的に選択する。
提案手法は,6つの音声処理タスクにおいて従来の手法よりも精度が向上し,完全再訓練を伴わずに新しい音声処理タスクに適応できることが示唆された。
関連論文リスト
- SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [40.81864091356371]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。