論文の概要: A Review of Speaker Diarization: Recent Advances with Deep Learning
- arxiv url: http://arxiv.org/abs/2101.09624v1
- Date: Sun, 24 Jan 2021 01:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:11:59.046778
- Title: A Review of Speaker Diarization: Recent Advances with Deep Learning
- Title(参考訳): 話者ダイアリゼーションのレビュー:深層学習による最近の進歩
- Authors: Tae Jin Park, Naoyuki Kanda, Dimitrios Dimitriadis, Kyu J. Han, Shinji
Watanabe, Shrikanth Narayanan
- Abstract要約: スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
- 参考スコア(独自算出の注目度): 78.20151731627958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization is a task to label audio or video recordings with classes
corresponding to speaker identity, or in short, a task to identify "who spoke
when". In the early years, speaker diarization algorithms were developed for
speech recognition on multi-speaker audio recordings to enable speaker adaptive
processing, but also gained its own value as a stand-alone application over
time to provide speaker-specific meta information for downstream tasks such as
audio retrieval. More recently, with the rise of deep learning technology that
has been a driving force to revolutionary changes in research and practices
across speech application domains in the past decade, more rapid advancements
have been made for speaker diarization. In this paper, we review not only the
historical development of speaker diarization technology but also the recent
advancements in neural speaker diarization approaches. We also discuss how
speaker diarization systems have been integrated with speech recognition
applications and how the recent surge of deep learning is leading the way of
jointly modeling these two components to be complementary to each other. By
considering such exciting technical trends, we believe that it is a valuable
contribution to the community to provide a survey work by consolidating the
recent developments with neural methods and thus facilitating further progress
towards a more efficient speaker diarization.
- Abstract(参考訳): 話者ダイアリゼーション(英: speaker diarization)とは、話者のアイデンティティに対応するクラスに音声やビデオの録音をラベル付けするタスクである。
初期の話者ダイアリゼーションアルゴリズムは、話者適応処理を可能にするマルチスピーカー音声記録の音声認識のために開発されましたが、音声検索などの下流タスクに話者固有のメタ情報を提供するために、時間の経過とともにスタンドアロンアプリケーションとして独自の価値を得ました。
最近では、過去10年間に音声アプリケーション領域における研究と実践の革命的な変化の原動力となったディープラーニング技術の台頭により、話者ダイアリゼーションのためのより急速な進歩が行われています。
本稿では,話者ダイアリゼーション技術の歴史的発展だけでなく,近年のニューラル話者ダイアリゼーション手法の進歩について概説する。
また、話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているか、また、近年のディープラーニングの急増が、これら2つのコンポーネントを相補的にモデリングする方法をいかに導いているかについても論じる。
このようなエキサイティングな技術的傾向を考えることで、最近の開発を神経的手法に統合し、より効率的な話者ダイアリゼーションに向けたさらなる進展を促すことで、調査作業を提供することが、コミュニティにとって価値ある貢献であると考えています。
関連論文リスト
- Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization [25.213694510527436]
既存の話者ダイアリゼーションシステムの多くは、単調な音響情報のみに依存している。
本稿では,音声,視覚,意味的手がかりを併用して話者ダイアリゼーションを向上する新しいマルチモーダル手法を提案する。
我々の手法は、最先端の話者ダイアリゼーション法より一貫して優れている。
論文 参考訳(メタデータ) (2024-08-22T03:34:03Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary
Network [28.661704280484457]
補助的ネットワークを用いたワードレベル終端ニューラルダイアリゼーション(WEEND)を提案する。
WEENDは高品質なダイアリゼーションテキストを提供する可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-15T15:48:45Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。