Fugu-MT 論文翻訳(概要): Self-supervised Speaker Recognition Training Using Human-Machine Dialogues

論文の概要: Self-supervised Speaker Recognition Training Using Human-Machine Dialogues

arxiv url: http://arxiv.org/abs/2202.03484v1
Date: Mon, 7 Feb 2022 19:44:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-09 15:25:51.526861
Title: Self-supervised Speaker Recognition Training Using Human-Machine Dialogues
Title（参考訳）: ヒューマンマシン対話を用いた自己教師付き話者認識訓練
Authors: Metehan Cekic, Ruirui Li, Zeya Chen, Yuguang Yang, Andreas Stolcke, Upamanyu Madhow
Abstract要約: 顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
参考スコア（独自算出の注目度）: 22.262550043863445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speaker recognition, recognizing speaker identities based on voice alone, enables important downstream applications, such as personalization and authentication. Learning speaker representations, in the context of supervised learning, heavily depends on both clean and sufficient labeled data, which is always difficult to acquire. Noisy unlabeled data, on the other hand, also provides valuable information that can be exploited using self-supervised training methods. In this work, we investigate how to pretrain speaker recognition models by leveraging dialogues between customers and smart-speaker devices. However, the supervisory information in such dialogues is inherently noisy, as multiple speakers may speak to a device in the course of the same dialogue. To address this issue, we propose an effective rejection mechanism that selectively learns from dialogues based on their acoustic homogeneity. Both reconstruction-based and contrastive-learning-based self-supervised methods are compared. Experiments demonstrate that the proposed method provides significant performance improvements, superior to earlier work. Dialogue pretraining when combined with the rejection mechanism yields 27.10% equal error rate (EER) reduction in speaker recognition, compared to a model without self-supervised pretraining.
Abstract（参考訳）: 話者認識は、音声のみに基づいて話者識別を認識することで、パーソナライゼーションや認証といった重要な下流アプリケーションを可能にする。話者表現の学習は、教師付き学習の文脈において、クリーンで十分なラベル付けされたデータの両方に大きく依存する。一方、ノイズのないラベル付きデータは、自己教師付きトレーニング手法で活用できる貴重な情報も提供します。本研究では,ユーザとスマートスピーカーデバイス間の対話を活用し,音声認識モデルの事前学習について検討する。しかし、このような対話における監督情報は本質的にノイズであり、複数の話者が同じ対話の途中でデバイスに話しかけることができる。この問題に対処するために,音声同質性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。再構成ベースとコントラスト学習ベースの自己教師方式を比較した。実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。拒絶機構と組み合わせた対話事前学習は、自己教師なし事前学習モデルと比較して話者認識において27.10%の誤り率(EER)が減少する。

関連論文リスト

DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-10-20T15:35:55Z)
Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文参考訳（メタデータ） (2023-12-18T06:29:53Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。 AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文参考訳（メタデータ） (2023-05-22T11:14:19Z)
In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文参考訳（メタデータ） (2022-10-26T13:00:29Z)
Self- and Pseudo-self-supervised Prediction of Speaker and Key-utterance for Multi-party Dialogue Reading Comprehension [46.69961067676279]
マルチパーティ対話機械読解(MRC)は,複数の話者が対話を行うため,大きな課題をもたらす。従来のモデルは、複雑なグラフベースのモジュールを使用して話者情報フローを組み込む方法に重点を置いていた。本稿では、話者情報の流れを暗黙的にモデル化するために、話者とキー発話における2つの労働自由自助的・疑似自己監督型予測タスクを設計する。
論文参考訳（メタデータ） (2021-09-08T16:51:41Z)
Self-supervised Dialogue Learning for Spoken Conversational Question Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文参考訳（メタデータ） (2021-06-04T00:09:38Z)
A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文参考訳（メタデータ） (2021-01-24T01:28:05Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)
A Machine of Few Words -- Interactive Speaker Recognition with Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-08-07T12:44:08Z)
Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文参考訳（メタデータ） (2020-04-13T17:16:56Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。