論文の概要: A Review of Speaker Diarization: Recent Advances with Deep Learning
- arxiv url: http://arxiv.org/abs/2101.09624v1
- Date: Sun, 24 Jan 2021 01:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:11:59.046778
- Title: A Review of Speaker Diarization: Recent Advances with Deep Learning
- Title(参考訳): 話者ダイアリゼーションのレビュー:深層学習による最近の進歩
- Authors: Tae Jin Park, Naoyuki Kanda, Dimitrios Dimitriadis, Kyu J. Han, Shinji
Watanabe, Shrikanth Narayanan
- Abstract要約: スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
- 参考スコア(独自算出の注目度): 78.20151731627958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization is a task to label audio or video recordings with classes
corresponding to speaker identity, or in short, a task to identify "who spoke
when". In the early years, speaker diarization algorithms were developed for
speech recognition on multi-speaker audio recordings to enable speaker adaptive
processing, but also gained its own value as a stand-alone application over
time to provide speaker-specific meta information for downstream tasks such as
audio retrieval. More recently, with the rise of deep learning technology that
has been a driving force to revolutionary changes in research and practices
across speech application domains in the past decade, more rapid advancements
have been made for speaker diarization. In this paper, we review not only the
historical development of speaker diarization technology but also the recent
advancements in neural speaker diarization approaches. We also discuss how
speaker diarization systems have been integrated with speech recognition
applications and how the recent surge of deep learning is leading the way of
jointly modeling these two components to be complementary to each other. By
considering such exciting technical trends, we believe that it is a valuable
contribution to the community to provide a survey work by consolidating the
recent developments with neural methods and thus facilitating further progress
towards a more efficient speaker diarization.
- Abstract(参考訳): 話者ダイアリゼーション(英: speaker diarization)とは、話者のアイデンティティに対応するクラスに音声やビデオの録音をラベル付けするタスクである。
初期の話者ダイアリゼーションアルゴリズムは、話者適応処理を可能にするマルチスピーカー音声記録の音声認識のために開発されましたが、音声検索などの下流タスクに話者固有のメタ情報を提供するために、時間の経過とともにスタンドアロンアプリケーションとして独自の価値を得ました。
最近では、過去10年間に音声アプリケーション領域における研究と実践の革命的な変化の原動力となったディープラーニング技術の台頭により、話者ダイアリゼーションのためのより急速な進歩が行われています。
本稿では,話者ダイアリゼーション技術の歴史的発展だけでなく,近年のニューラル話者ダイアリゼーション手法の進歩について概説する。
また、話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているか、また、近年のディープラーニングの急増が、これら2つのコンポーネントを相補的にモデリングする方法をいかに導いているかについても論じる。
このようなエキサイティングな技術的傾向を考えることで、最近の開発を神経的手法に統合し、より効率的な話者ダイアリゼーションに向けたさらなる進展を促すことで、調査作業を提供することが、コミュニティにとって価値ある貢献であると考えています。
関連論文リスト
- A Reinforcement Learning Framework for Online Speaker Diarization [18.181920080789475]
話者ダイアリゼーション(英語: Speaker Diarization)とは、各時刻スタンプで話者の身元を示す音声やビデオの録音をラベル付けするタスクである。
本稿では,事前登録や事前学習を必要とせず,リアルタイムなマルチ話者ダイアリゼーションと認識を実現する機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-21T15:42:25Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speaker Re-identification with Speaker Dependent Speech Enhancement [37.33388614967888]
本稿では,音声強調と話者認識を行う新しい手法を提案する。
提案手法は,実環境における話者認識評価を目的としたVoxceleb1データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-15T23:02:10Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。