論文の概要: SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation
- arxiv url: http://arxiv.org/abs/2505.03273v2
- Date: Mon, 26 May 2025 07:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.64338
- Title: SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation
- Title(参考訳): SepALM:ロバスト音声分離のための誤り訂正言語モデル
- Authors: Zhaoxi Mu, Xinyu Yang, Gang Wang,
- Abstract要約: 本稿では,音声言語モデル(ALM)を用いて,予備的分離後のテキスト領域内での音声の修正と再合成を行う先駆的アプローチであるSepALMを紹介する。
SepALMは、セパレータ、修正器、シンセサイザー、調整器の4つのコアコンポーネントから構成される。
我々の実験は、SepALMが音声分離の精度を高めるだけでなく、新しい音響環境における適応性を著しく向上させることを実証している。
- 参考スコア(独自算出の注目度): 15.58921460046093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While contemporary speech separation technologies adeptly process lengthy mixed audio waveforms, they are frequently challenged by the intricacies of real-world environments, including noisy and reverberant settings, which can result in artifacts or distortions in the separated speech. To overcome these limitations, we introduce SepALM, a pioneering approach that employs audio language models (ALMs) to rectify and re-synthesize speech within the text domain following preliminary separation. SepALM comprises four core components: a separator, a corrector, a synthesizer, and an aligner. By integrating an ALM-based end-to-end error correction mechanism, we mitigate the risk of error accumulation and circumvent the optimization hurdles typically encountered in conventional methods that amalgamate automatic speech recognition (ASR) with large language models (LLMs). Additionally, we have developed Chain-of-Thought (CoT) prompting and knowledge distillation techniques to facilitate the reasoning and training processes of the ALM. Our experiments substantiate that SepALM not only elevates the precision of speech separation but also markedly bolsters adaptability in novel acoustic environments.
- Abstract(参考訳): 現代音声分離技術は長大な混合音声波形を十分に処理するが、ノイズや残響設定を含む現実世界環境の複雑化にしばしば挑戦され、分離された音声のアーチファクトや歪みが生じる。
これらの制限を克服するために、予備的分離後のテキスト領域内の音声を修正・再合成するための音声言語モデル(ALM)を用いた先駆的アプローチであるSepALMを導入する。
SepALMは、セパレータ、修正器、シンセサイザー、調整器の4つのコアコンポーネントから構成される。
本研究では,ALMに基づくエンドツーエンドの誤り訂正機構を統合することにより,誤り蓄積のリスクを軽減し,大規模言語モデル(LLM)とアマルガメート自動音声認識(ASR)を併用する従来の手法で発生する最適化ハードルを回避する。
さらに,本研究では,ALMの推論・訓練プロセスを容易にするため,Chin-of-Thought (CoT) 法と知識蒸留技術を開発した。
我々の実験は、SepALMが音声分離の精度を高めるだけでなく、新しい音響環境における適応性を著しく向上させることを実証している。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription [31.774032625780414]
TF-GridNetは実残響条件下での音声分離において顕著な性能を示した。
混合エンコーダを静的な2話者シナリオから自然なミーティングコンテキストに拡張する。
実験の結果、単一のマイクを使用して、LibriCSS上での最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Mixture Encoder for Joint Speech Separation and Recognition [15.13598115379631]
マルチ話者自動音声認識は多くの実世界のアプリケーションにとって不可欠である。
既存のアプローチは、モジュラーとエンドツーエンドのメソッドに分けられる。
エンドツーエンドモデルでは、重複した音声を直接単一の強力なニューラルネットワークで処理する。
論文 参考訳(メタデータ) (2023-06-21T11:01:31Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Integrated Semantic and Phonetic Post-correction for Chinese Speech
Recognition [1.2914521751805657]
提案手法は,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する手法である。
実世界の音声認識実験の結果,提案手法はベースラインモデルよりも明らかに低いことがわかった。
論文 参考訳(メタデータ) (2021-11-16T11:55:27Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。