論文の概要: Self-supervised Predictive Coding Models Encode Speaker and Phonetic
Information in Orthogonal Subspaces
- arxiv url: http://arxiv.org/abs/2305.12464v2
- Date: Tue, 6 Jun 2023 10:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:36:40.784699
- Title: Self-supervised Predictive Coding Models Encode Speaker and Phonetic
Information in Orthogonal Subspaces
- Title(参考訳): 直交部分空間における話者および音声情報を符号化する自己教師付き予測符号化モデル
- Authors: Oli Liu, Hao Tang, Sharon Goldwater
- Abstract要約: 自己教師型音声表現は、話者情報と音声情報をエンコードすることが知られている。
話者情報を符号化する部分空間を崩壊させる新しい話者正規化法を提案する。
- 参考スコア(独自算出の注目度): 26.397822324563744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech representations are known to encode both speaker and
phonetic information, but how they are distributed in the high-dimensional
space remains largely unexplored. We hypothesize that they are encoded in
orthogonal subspaces, a property that lends itself to simple disentanglement.
Applying principal component analysis to representations of two predictive
coding models, we identify two subspaces that capture speaker and phonetic
variances, and confirm that they are nearly orthogonal. Based on this property,
we propose a new speaker normalization method which collapses the subspace that
encodes speaker information, without requiring transcriptions. Probing
experiments show that our method effectively eliminates speaker information and
outperforms a previous baseline in phone discrimination tasks. Moreover, the
approach generalizes and can be used to remove information of unseen speakers.
- Abstract(参考訳): 自己教師付き音声表現は、話者情報と音声情報の両方を符号化することが知られているが、それらが高次元空間でどのように分配されるかはほとんど解明されていない。
我々はそれらが直交部分空間にエンコードされているという仮説を立てる。
主成分分析を2つの予測符号化モデルの表現に適用し、話者と音声の分散を捉える2つの部分空間を特定し、それらがほぼ直交的であることを確認した。
そこで本研究では,文字起こしを必要とせず,話者情報を符号化する部分空間を崩壊させる話者正規化手法を提案する。
提案手法は, 話者情報を効果的に排除し, 過去の音声識別課題のベースラインを上回っていることを示す。
さらに、このアプローチは一般化され、目に見えない話者の情報を削除するために使用できる。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Joint speaker diarisation and tracking in switching state-space model [51.58295550366401]
本稿では,統合モデル内で共同でダイアリゼーションを行いながら,話者の動きを明示的に追跡することを提案する。
隠れ状態が現在のアクティブ話者の身元と予測されたすべての話者の位置を表現する状態空間モデルを提案する。
Microsoftリッチミーティングの書き起こしタスクの実験は、提案された共同位置追跡とダイアリゼーションアプローチが、位置情報を使用する他の方法と相容れない性能を発揮することを示している。
論文 参考訳(メタデータ) (2021-09-23T04:43:58Z) - Voice Conversion Based Speaker Normalization for Acoustic Unit Discovery [3.128267020893596]
単位発見に先立って教師なし話者正規化手法を提案する。
対比的コントラスト予測符号化手法を用いて、音声信号のコンテンツ誘起変化から話者に関連する話者を切り離すことを基本とする。
英語,Yoruba,Mboshiの実験では,非正規化入力と比較して改善が見られた。
論文 参考訳(メタデータ) (2021-05-04T22:40:41Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Speaker diarization with session-level speaker embedding refinement
using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2020-05-22T19:52:51Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。