論文の概要: Self-supervised learning for audio-visual speaker diarization
- arxiv url: http://arxiv.org/abs/2002.05314v1
- Date: Thu, 13 Feb 2020 02:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:13:18.712513
- Title: Self-supervised learning for audio-visual speaker diarization
- Title(参考訳): 視聴覚ダイアリゼーションのための自己教師付き学習
- Authors: Yifan Ding, Yong Xu, Shi-Xiong Zhang, Yahuan Cong and Liqiang Wang
- Abstract要約: 本稿では,大規模ラベリングを伴わない話者ダイアリゼーションの問題に対処する,自己教師型音声-ビデオ同期学習手法を提案する。
実世界の人間とコンピュータのインタラクションシステムでテストし、その結果、最良のモデルでは、ダイアリゼーション誤差率の低減とともに、8%F1スコアが顕著に向上することを示した。
- 参考スコア(独自算出の注目度): 33.87232473483064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization, which is to find the speech segments of specific
speakers, has been widely used in human-centered applications such as video
conferences or human-computer interaction systems. In this paper, we propose a
self-supervised audio-video synchronization learning method to address the
problem of speaker diarization without massive labeling effort. We improve the
previous approaches by introducing two new loss functions: the dynamic triplet
loss and the multinomial loss. We test them on a real-world human-computer
interaction system and the results show our best model yields a remarkable gain
of +8%F1-scoresas well as diarization error rate reduction. Finally, we
introduce a new large scale audio-video corpus designed to fill the vacancy of
audio-video datasets in Chinese.
- Abstract(参考訳): 特定の話者の音声セグメントを見つけるための話者ダイアリゼーションは、ビデオ会議や人間とコンピュータのインタラクションシステムのような人間中心のアプリケーションで広く使われている。
本稿では,大規模ラベリングを伴わない話者ダイアリゼーションの問題に対処する,自己教師型音声-ビデオ同期学習手法を提案する。
動的三重項損失と多項損失という2つの新しい損失関数を導入することで、従来のアプローチを改善する。
実世界の人間とコンピュータのインタラクションシステムでテストし、その結果、最良のモデルでは、ダイアリゼーション誤差率の低減とともに、8%F1スコアが顕著に向上することを示した。
最後に,中国語における音声ビデオデータセットの空白を埋めるための大規模音声ビデオコーパスを提案する。
関連論文リスト
- RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues [45.095482324156606]
本稿では,複数話者の同時分離を容易にするマルチ話者分離フレームワークを提案する。
VoxCeleb2 と LRS3 のデータセットによる実験結果から,2, 3, 4, 5 話者を分離した場合に,本手法が最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-07-27T09:56:23Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。