論文の概要: Disentangled Speech Embeddings using Cross-modal Self-supervision
- arxiv url: http://arxiv.org/abs/2002.08742v2
- Date: Mon, 4 May 2020 15:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 08:19:25.689715
- Title: Disentangled Speech Embeddings using Cross-modal Self-supervision
- Title(参考訳): クロスモーダル・セルフ・スーパービジョンを用いた不連続音声埋め込み
- Authors: Arsha Nagrani, Joon Son Chung, Samuel Albanie, Andrew Zisserman
- Abstract要約: 本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
- 参考スコア(独自算出の注目度): 119.94362407747437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to learn representations of speaker identity
without access to manually annotated data. To do so, we develop a
self-supervised learning objective that exploits the natural cross-modal
synchrony between faces and audio in video. The key idea behind our approach is
to tease apart--without annotation--the representations of linguistic content
and speaker identity. We construct a two-stream architecture which: (1) shares
low-level features common to both representations; and (2) provides a natural
mechanism for explicitly disentangling these factors, offering the potential
for greater generalisation to novel combinations of content and identity and
ultimately producing speaker identity representations that are more robust. We
train our method on a large-scale audio-visual dataset of talking heads `in the
wild', and demonstrate its efficacy by evaluating the learned speaker
representations for standard speaker recognition performance.
- Abstract(参考訳): 本研究の目的は,手動で注釈付きデータにアクセスすることなく話者識別の表現を学習することである。
そこで本稿では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
このアプローチの背景にある重要な考え方は、アノテーションなしで、言語内容と話者識別の表現を区別することである。
両表現に共通する低レベル特徴を共通する2ストリームアーキテクチャを構築し,(2)これらの要因を明確に分離する自然なメカニズムを提供し,コンテンツとアイデンティティの新たな組み合わせへのさらなる一般化の可能性を提供し,最終的にはより堅牢な話者識別表現を生成する。
提案手法は,音声頭部の大規模音声視覚データセットを学習し,学習した話者表現を標準話者認識性能として評価することにより,その効果を実証する。
関連論文リスト
- Towards the Next Frontier in Speech Representation Learning Using Disentanglement [34.21745744502759]
本稿では,フレームレベルと発話レベルのエンコーダモジュールから構成される音声の拡散自己監督学習(Learning2Diss)のためのフレームワークを提案する。
提案したLearn2Dissは,フレームレベルのエンコーダ表現が意味的タスクを改善する一方で,発話レベルの表現が非意味的なタスクを改善することにより,様々なタスクにおける最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-02T07:13:35Z) - Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction [17.05599594354308]
音声信号は、大域的な音響特性と局所的な意味情報の両方を含むため、本質的に複雑である。
対象音声抽出のタスクでは、参照音声における大域的・局所的な意味情報の特定の要素が話者の混乱を招く可能性がある。
本稿では,この課題を克服するために,自己教師付き不整合表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-16T03:48:24Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - Disentangling Prosody Representations with Unsupervised Speech
Reconstruction [22.873286925385543]
本研究の目的は、教師なし再構成に基づく音声からの感情的韻律のゆがみに対処することである。
具体的には,提案した音声再構成モデルProsody2Vecの3つの重要なコンポーネントを同定し,設計し,実装し,統合する。
まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。
論文 参考訳(メタデータ) (2022-12-14T01:37:35Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Speaker Normalization for Self-supervised Speech Emotion Recognition [16.044405846513495]
特徴表現から話者特性を正規化しながら、音声感情認識タスクを学習する勾配に基づく逆学習フレームワークを提案する。
提案手法は話者に依存しない設定と話者に依存しない設定の両方において有効であることを示すとともに,難易度の高いIEMOCAPデータセットに対する新しい最先端結果を得る。
論文 参考訳(メタデータ) (2022-02-02T19:30:47Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。