論文の概要: A Review of Speaker Diarization: Recent Advances with Deep Learning
- arxiv url: http://arxiv.org/abs/2101.09624v1
- Date: Sun, 24 Jan 2021 01:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:11:59.046778
- Title: A Review of Speaker Diarization: Recent Advances with Deep Learning
- Title(参考訳): 話者ダイアリゼーションのレビュー:深層学習による最近の進歩
- Authors: Tae Jin Park, Naoyuki Kanda, Dimitrios Dimitriadis, Kyu J. Han, Shinji
Watanabe, Shrikanth Narayanan
- Abstract要約: スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
- 参考スコア(独自算出の注目度): 78.20151731627958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization is a task to label audio or video recordings with classes
corresponding to speaker identity, or in short, a task to identify "who spoke
when". In the early years, speaker diarization algorithms were developed for
speech recognition on multi-speaker audio recordings to enable speaker adaptive
processing, but also gained its own value as a stand-alone application over
time to provide speaker-specific meta information for downstream tasks such as
audio retrieval. More recently, with the rise of deep learning technology that
has been a driving force to revolutionary changes in research and practices
across speech application domains in the past decade, more rapid advancements
have been made for speaker diarization. In this paper, we review not only the
historical development of speaker diarization technology but also the recent
advancements in neural speaker diarization approaches. We also discuss how
speaker diarization systems have been integrated with speech recognition
applications and how the recent surge of deep learning is leading the way of
jointly modeling these two components to be complementary to each other. By
considering such exciting technical trends, we believe that it is a valuable
contribution to the community to provide a survey work by consolidating the
recent developments with neural methods and thus facilitating further progress
towards a more efficient speaker diarization.
- Abstract(参考訳): 話者ダイアリゼーション(英: speaker diarization)とは、話者のアイデンティティに対応するクラスに音声やビデオの録音をラベル付けするタスクである。
初期の話者ダイアリゼーションアルゴリズムは、話者適応処理を可能にするマルチスピーカー音声記録の音声認識のために開発されましたが、音声検索などの下流タスクに話者固有のメタ情報を提供するために、時間の経過とともにスタンドアロンアプリケーションとして独自の価値を得ました。
最近では、過去10年間に音声アプリケーション領域における研究と実践の革命的な変化の原動力となったディープラーニング技術の台頭により、話者ダイアリゼーションのためのより急速な進歩が行われています。
本稿では,話者ダイアリゼーション技術の歴史的発展だけでなく,近年のニューラル話者ダイアリゼーション手法の進歩について概説する。
また、話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているか、また、近年のディープラーニングの急増が、これら2つのコンポーネントを相補的にモデリングする方法をいかに導いているかについても論じる。
このようなエキサイティングな技術的傾向を考えることで、最近の開発を神経的手法に統合し、より効率的な話者ダイアリゼーションに向けたさらなる進展を促すことで、調査作業を提供することが、コミュニティにとって価値ある貢献であると考えています。
関連論文リスト
- Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model
for Multi-turn Dialogue Generation [13.820298189734686]
本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。
実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。
論文 参考訳(メタデータ) (2021-10-13T16:08:29Z) - The Right to Talk: An Audio-Visual Transformer Approach [27.71444773878775]
本研究は,複数話者会話ビデオの音声および視覚チャネルにおける主話者のローカライゼーションと強調を行うために,新たなオーディオ・ビジュアル・トランスフォーマーアプローチを導入する。
我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。
論文 参考訳(メタデータ) (2021-08-06T18:04:24Z) - A Real-time Speaker Diarization System Based on Spatial Spectrum [14.189768987932364]
本稿では,話者ダイアリゼーションタスクにおける長年の課題に対処するための,新しい体系的アプローチを提案する。
まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。
第2に,話者位置追跡のためのオンライン話者位置連成クラスタリング手法を提案する。
第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
論文 参考訳(メタデータ) (2021-07-20T08:25:23Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。