論文の概要: A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.03127v1
- Date: Fri, 7 Aug 2020 12:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 02:05:47.353579
- Title: A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning
- Title(参考訳): 少数の単語の機械 --強化学習による対話型話者認識
- Authors: Mathieu Seurin, Florian Strub, Philippe Preux, and Olivier Pietquin
- Abstract要約: 対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 35.36769027019856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker recognition is a well known and studied task in the speech processing
domain. It has many applications, either for security or speaker adaptation of
personal devices. In this paper, we present a new paradigm for automatic
speaker recognition that we call Interactive Speaker Recognition (ISR). In this
paradigm, the recognition system aims to incrementally build a representation
of the speakers by requesting personalized utterances to be spoken in contrast
to the standard text-dependent or text-independent schemes. To do so, we cast
the speaker recognition task into a sequential decision-making problem that we
solve with Reinforcement Learning. Using a standard dataset, we show that our
method achieves excellent performance while using little speech signal amounts.
This method could also be applied as an utterance selection mechanism for
building speech synthesis systems.
- Abstract(参考訳): 話者認識は、音声処理領域においてよく知られ、研究されている課題である。
セキュリティやパーソナルデバイスの話者適応など、多くの応用がある。
本稿では,対話型話者認識(ISR)と呼ばれる,自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、標準のテキスト依存やテキスト非依存の方式とは対照的に、個別の発話を要求することで話者の表現を段階的に構築することを目的としている。
そこで我々は,話者認識タスクを逐次的な意思決定問題に落とし込み,強化学習によって解決する。
標準データセットを用いて,少ない音声信号量を用いて,提案手法が優れた性能を発揮することを示す。
この方法は,音声合成システム構築のための発話選択機構にも応用できる。
関連論文リスト
- Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。