論文の概要: Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio
- arxiv url: http://arxiv.org/abs/2505.10975v1
- Date: Fri, 16 May 2025 08:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.292086
- Title: Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio
- Title(参考訳): モノラルオーディオにおけるエンド・ツー・エンドマルチスピーカ音声認識の検討
- Authors: Xinlu He, Jacob Whitehill,
- Abstract要約: モナラ多話者自動音声認識(ASR)は、データ不足と、個々の話者に単語を認識・帰属させることが本質的に困難であるため、依然として困難である。
近年、カスケードシステムからエンド・ツー・エンド(E2E)アーキテクチャへの移行が進み、誤りの伝播が減少し、音声コンテンツと話者アイデンティティの相乗効果が向上した。
この調査は、マルチスピーカーASRのためのE2Eニューラルアプローチの体系的な分類を提供し、最近の進歩と比較分析を強調している。
- 参考スコア(独自算出の注目度): 9.791181119162648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monaural multi-speaker automatic speech recognition (ASR) remains challenging due to data scarcity and the intrinsic difficulty of recognizing and attributing words to individual speakers, particularly in overlapping speech. Recent advances have driven the shift from cascade systems to end-to-end (E2E) architectures, which reduce error propagation and better exploit the synergy between speech content and speaker identity. Despite rapid progress in E2E multi-speaker ASR, the field lacks a comprehensive review of recent developments. This survey provides a systematic taxonomy of E2E neural approaches for multi-speaker ASR, highlighting recent advances and comparative analysis. Specifically, we analyze: (1) architectural paradigms (SIMO vs.~SISO) for pre-segmented audio, analyzing their distinct characteristics and trade-offs; (2) recent architectural and algorithmic improvements based on these two paradigms; (3) extensions to long-form speech, including segmentation strategy and speaker-consistent hypothesis stitching. Further, we (4) evaluate and compare methods across standard benchmarks. We conclude with a discussion of open challenges and future research directions towards building robust and scalable multi-speaker ASR.
- Abstract(参考訳): モナラマルチ話者自動音声認識(ASR)は、データ不足と個々の話者、特に重複する発話において、単語の認識と帰属が本質的に困難であることから、依然として困難である。
近年、カスケードシステムからエンド・ツー・エンド(E2E)アーキテクチャへの移行が進み、誤りの伝播が減少し、音声コンテンツと話者アイデンティティの相乗効果が向上した。
E2EマルチスピーカーASRの急速な進歩にもかかわらず、この分野は最近の進展の包括的なレビューを欠いている。
この調査は、マルチスピーカーASRのためのE2Eニューラルアプローチの体系的な分類を提供し、最近の進歩と比較分析を強調している。
具体的には,(1)事前セグメンテーション音声のためのアーキテクチャパラダイム(SIMO vs.~SISO),(2)これらの2つのパラダイムに基づく最近のアーキテクチャおよびアルゴリズムの改善,(3)セグメンテーション戦略や話者一貫性仮説の縫合を含む長文音声の拡張,などを分析する。
さらに,標準ベンチマークにおけるメソッドの評価と比較を行った。
我々は、オープンチャレンジと、堅牢でスケーラブルなマルチスピーカーASRの構築に向けた今後の研究方向性について議論した。
関連論文リスト
- Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation [13.559210762117061]
本稿では,音声クエリから関連するテキスト知識を直接取得する,新しいエンドツーエンドRAGフレームワークを提案する。
実験結果から,本手法はエンドツーエンドのS2S対話システムの性能を大幅に向上させることが示された。
我々のフレームワークは、エンド・ツー・エンドのS2Sシステムにおける知識統合を強化するための有望な方向性を提供します。
論文 参考訳(メタデータ) (2025-04-27T14:35:24Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary
Network [28.661704280484457]
補助的ネットワークを用いたワードレベル終端ニューラルダイアリゼーション(WEEND)を提案する。
WEENDは高品質なダイアリゼーションテキストを提供する可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-15T15:48:45Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。
本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文 参考訳(メタデータ) (2021-12-13T15:49:36Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。