論文の概要: Speaker Diarization as a Fully Online Learning Problem in MiniVox
- arxiv url: http://arxiv.org/abs/2006.04376v3
- Date: Thu, 22 Oct 2020 02:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:06:41.615430
- Title: Speaker Diarization as a Fully Online Learning Problem in MiniVox
- Title(参考訳): MiniVoxにおける完全オンライン学習問題としての話者ダイアリゼーション
- Authors: Baihan Lin, Xinxin Zhang
- Abstract要約: 我々は,事前登録や事前学習を行わずに,リアルタイム多話者ダイアリゼーションと認識を行う機械学習フレームワークを提案する。
我々は、MiniVoxを自動的にキュレートするために、実世界の発話の既存のデータセットを構築した。
我々は,新規ユーザの追加によるコールドスタート問題を対話的に処理する,Webベースの動作可能な認識システムを提供した。
- 参考スコア(独自算出の注目度): 18.181920080789475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We proposed a novel machine learning framework to conduct real-time
multi-speaker diarization and recognition without prior registration and
pretraining in a fully online learning setting. Our contributions are two-fold.
First, we proposed a new benchmark to evaluate the rarely studied fully online
speaker diarization problem. We built upon existing datasets of real world
utterances to automatically curate MiniVox, an experimental environment which
generates infinite configurations of continuous multi-speaker speech stream.
Second, we considered the practical problem of online learning with
episodically revealed rewards and introduced a solution based on
semi-supervised and self-supervised learning methods. Additionally, we provided
a workable web-based recognition system which interactively handles the cold
start problem of new user's addition by transferring representations of old
arms to new ones with an extendable contextual bandit. We demonstrated that our
proposed method obtained robust performance in the online MiniVox framework.
- Abstract(参考訳): 完全オンライン学習環境において,事前登録や事前学習を行うことなく,リアルタイム多話者ダイアリゼーションと認識を行う機械学習フレームワークを提案する。
私たちの貢献は2倍です。
まず,完全オンライン話者ダイアリゼーション問題を評価するための新しいベンチマークを提案する。
マルチ話者音声ストリームの無限構成を生成する実験環境であるMiniVoxを自動的にキュレートするために,実世界の発話データセットを構築した。
次に,オンライン学習の実践的課題について考察し,半教師付き・自己教師型学習法に基づく解を導入した。
さらに,従来の腕の表現を拡張可能なコンテキストバンディットで新しいものに転送することで,新規ユーザの追加のコールドスタート問題を対話的に処理可能なwebベースの認識システムを提供する。
提案手法は,オンラインMiniVoxフレームワークにおいて頑健な性能を示した。
関連論文リスト
- An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems [18.829793635104608]
ダイアログシステムにおけるASRの一般的なフレームワークを紹介する。
従来の学習と比較して,我々の新しいフレームワークを活用することで,実世界の対話システムにおいて比較的WERが10%近く削減されることが示されている。
論文 参考訳(メタデータ) (2024-09-16T17:59:50Z) - Leveraging Visual Supervision for Array-based Active Speaker Detection
and Localization [3.836171323110284]
簡単な音声畳み込みリカレントニューラルネットワークにより,水平型アクティブ話者検出と局所化を同時に行うことができることを示す。
本稿では,生徒の学習アプローチを取り入れた,自己指導型学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T16:53:04Z) - DinoSR: Self-Distillation and Online Clustering for Self-supervised
Speech Representation Learning [140.96990096377127]
自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを導入する。
DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した携帯電話の在庫を出力し、最後に、識別トークンを使用して学生ネットワークを誘導する。
本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-05-17T07:23:46Z) - A Reinforcement Learning Framework for Online Speaker Diarization [18.181920080789475]
話者ダイアリゼーション(英語: Speaker Diarization)とは、各時刻スタンプで話者の身元を示す音声やビデオの録音をラベル付けするタスクである。
本稿では,事前登録や事前学習を必要とせず,リアルタイムなマルチ話者ダイアリゼーションと認識を実現する機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-21T15:42:25Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems [75.43457658815943]
タスク指向対話システムのシステム設計プロセスを簡単にするミニマリスト変換学習(MinTL)を提案する。
MinTLはシンプルだが効果的な転送学習フレームワークであり、事前訓練されたSeq2seqモデルのプラグインと再生を可能にする。
トレーニング済みの2つのバックボーン(T5とBART)で学習フレームワークをインスタンス化し、MultiWOZで評価する。
論文 参考訳(メタデータ) (2020-09-25T02:19:13Z) - Wandering Within a World: Online Contextualized Few-Shot Learning [62.28521610606054]
我々は、数ショット学習の標準フレームワークをオンライン環境に拡張することで、一般的な人間と機械学習環境のギャップを埋めることを目指している。
本研究では,世界中をさまようエージェントの視覚体験を模倣した大規模な屋内画像に基づく,新しいプロトタイプによる数ショット学習を提案する。
論文 参考訳(メタデータ) (2020-07-09T04:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。