論文の概要: Residual Information in Deep Speaker Embedding Architectures
- arxiv url: http://arxiv.org/abs/2302.02742v1
- Date: Mon, 6 Feb 2023 12:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:47:09.767759
- Title: Residual Information in Deep Speaker Embedding Architectures
- Title(参考訳): ディープスピーカー埋め込みアーキテクチャにおける残差情報
- Authors: Adriana Stan
- Abstract要約: 本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
- 参考スコア(独自算出の注目度): 4.619541348328938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker embeddings represent a means to extract representative vectorial
representations from a speech signal such that the representation pertains to
the speaker identity alone. The embeddings are commonly used to classify and
discriminate between different speakers. However, there is no objective measure
to evaluate the ability of a speaker embedding to disentangle the speaker
identity from the other speech characteristics. This means that the embeddings
are far from ideal, highly dependent on the training corpus and still include a
degree of residual information pertaining to factors such as linguistic
content, recording conditions or speaking style of the utterance. This paper
introduces an analysis over six sets of speaker embeddings extracted with some
of the most recent and high-performing DNN architectures, and in particular,
the degree to which they are able to truly disentangle the speaker identity
from the speech signal. To correctly evaluate the architectures, a large
multi-speaker parallel speech dataset is used. The dataset includes 46 speakers
uttering the same set of prompts, recorded in either a professional studio or
their home environments. The analysis looks into the intra- and inter-speaker
similarity measures computed over the different embedding sets, as well as if
simple classification and regression methods are able to extract several
residual information factors from the speaker embeddings. The results show that
the discriminative power of the analyzed embeddings is very high, yet across
all the analyzed architectures, residual information is still present in the
representations in the form of a high correlation to the recording conditions,
linguistic contents and utterance duration.
- Abstract(参考訳): 話者埋め込みは、その表現が話者同一性のみに関連するように、音声信号から代表ベクトル表現を抽出する手段を表す。
埋め込みは通常、異なる話者の分類と識別に使用される。
しかし,話者の身元を他の音声特徴から切り離すための話者埋め込み能力を評価する客観的な尺度は存在しない。
これは、埋め込みは理想的なものではなく、トレーニングコーパスに大きく依存しており、まだ言語内容、記録条件、発話の話し方などの要因に関する残余情報を含んでいることを意味する。
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて分析し,特に,話者アイデンティティを音声信号から真に切り離すことができる程度について述べる。
アーキテクチャを正しく評価するために、大きなマルチスピーカー並列音声データセットを使用する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
分析は、異なる埋め込み集合上で計算される話者内および話者間類似度の測定や、単純な分類および回帰法が話者埋め込みからいくつかの残差情報因子を抽出することができるかどうかを調べる。
その結果, 解析された埋め込みの識別力は非常に高いが, 分析されたすべてのアーキテクチャにおいて, 残余情報は, 記録条件, 言語内容, 発話時間に高い相関関係があることが示唆された。
関連論文リスト
- Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - Quantitative Evidence on Overlooked Aspects of Enrollment Speaker
Embeddings for Target Speaker Separation [14.013049471563141]
単一チャネル話者分離は、話者の登録発話を与えられた複数の話者の混合から話者の声を抽出することを目的としている。
典型的なディープラーニングTSSフレームワークは、登録話者埋め込みを取得する上流モデルと、埋め込み上で分離条件を実行する下流モデルで構成されている。
論文 参考訳(メタデータ) (2022-10-23T07:08:46Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。