論文の概要: A Reinforcement Learning Framework for Online Speaker Diarization
- arxiv url: http://arxiv.org/abs/2302.10924v1
- Date: Tue, 21 Feb 2023 15:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 17:20:06.597324
- Title: A Reinforcement Learning Framework for Online Speaker Diarization
- Title(参考訳): オンライン話者ダイアリゼーションのための強化学習フレームワーク
- Authors: Baihan Lin, Xinxin Zhang
- Abstract要約: 話者ダイアリゼーション(英語: Speaker Diarization)とは、各時刻スタンプで話者の身元を示す音声やビデオの録音をラベル付けするタスクである。
本稿では,事前登録や事前学習を必要とせず,リアルタイムなマルチ話者ダイアリゼーションと認識を実現する機械学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.181920080789475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization is a task to label an audio or video recording with the
identity of the speaker at each given time stamp. In this work, we propose a
novel machine learning framework to conduct real-time multi-speaker diarization
and recognition without prior registration and pretraining in a fully online
and reinforcement learning setting. Our framework combines embedding
extraction, clustering, and resegmentation into the same problem as an online
decision-making problem. We discuss practical considerations and advanced
techniques such as the offline reinforcement learning, semi-supervision, and
domain adaptation to address the challenges of limited training data and
out-of-distribution environments. Our approach considers speaker diarization as
a fully online learning problem of the speaker recognition task, where the
agent receives no pretraining from any training set before deployment, and
learns to detect speaker identity on the fly through reward feedbacks. The
paradigm of the reinforcement learning approach to speaker diarization presents
an adaptive, lightweight, and generalizable system that is useful for
multi-user teleconferences, where many people might come and go without
extensive pre-registration ahead of time. Lastly, we provide a desktop
application that uses our proposed approach as a proof of concept. To the best
of our knowledge, this is the first approach to apply a reinforcement learning
approach to the speaker diarization task.
- Abstract(参考訳): 話者ダイアリゼーション(英語: Speaker Diarization)とは、各時刻スタンプで話者の身元を示す音声やビデオの録音をラベル付けするタスクである。
本研究では,事前登録や事前学習をすることなく,完全オンライン・強化学習環境でリアルタイムマルチ話者ダイアリゼーションと認識を行うための新しい機械学習フレームワークを提案する。
提案手法は,オンライン意思決定問題と同じ問題に対して,抽出,クラスタリング,再分類を組み合わせる。
本稿では,オフライン強化学習,セミスーパービジョン,ドメイン適応といった実践的考察と高度化手法について検討し,限られたトレーニングデータと分散環境の課題に対処する。
提案手法では,話者ダイアリゼーションを話者認識タスクの完全なオンライン学習問題として捉え,エージェントは展開前のトレーニングセットから事前トレーニングを受けず,報酬フィードバックを通じて話者のアイデンティティをオンザフライで検出することを学ぶ。
話者ダイアリゼーションに対する強化学習アプローチのパラダイムは、適応的で軽量で一般化可能なシステムを提供しており、マルチユーザテレ会議に有用である。
最後に,提案手法を概念実証として用いたデスクトップアプリケーションを提案する。
我々の知る限りでは、これは話者ダイアリゼーションタスクに強化学習アプローチを適用するための最初のアプローチである。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Speaker Diarization as a Fully Online Learning Problem in MiniVox [18.181920080789475]
我々は,事前登録や事前学習を行わずに,リアルタイム多話者ダイアリゼーションと認識を行う機械学習フレームワークを提案する。
我々は、MiniVoxを自動的にキュレートするために、実世界の発話の既存のデータセットを構築した。
我々は,新規ユーザの追加によるコールドスタート問題を対話的に処理する,Webベースの動作可能な認識システムを提供した。
論文 参考訳(メタデータ) (2020-06-08T06:40:29Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。