論文の概要: Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss
- arxiv url: http://arxiv.org/abs/2103.01463v1
- Date: Tue, 2 Mar 2021 04:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 15:41:44.012996
- Title: Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss
- Title(参考訳): クロスモーダル対応損失を用いた視聴覚分離
- Authors: Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota
Orihashi, Ryo Masumura
- Abstract要約: 音声-視覚的音声分離学習法を提案する。
分離された信号と視覚信号との対応を考慮して音声特性を反映する。
- 参考スコア(独自算出の注目度): 28.516240952627083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an audio-visual speech separation learning method that considers
the correspondence between the separated signals and the visual signals to
reflect the speech characteristics during training. Audio-visual speech
separation is a technique to estimate the individual speech signals from a
mixture using the visual signals of the speakers. Conventional studies on
audio-visual speech separation mainly train the separation model on the
audio-only loss, which reflects the distance between the source signals and the
separated signals. However, conventional losses do not reflect the
characteristics of the speech signals, including the speaker's characteristics
and phonetic information, which leads to distortion or remaining noise. To
address this problem, we propose the cross-modal correspondence (CMC) loss,
which is based on the cooccurrence of the speech signal and the visual signal.
Since the visual signal is not affected by background noise and contains
speaker and phonetic information, using the CMC loss enables the audio-visual
speech separation model to remove noise while preserving the speech
characteristics. Experimental results demonstrate that the proposed method
learns the cooccurrence on the basis of CMC loss, which improves separation
performance.
- Abstract(参考訳): 本稿では,訓練中の音声特性を反映するために,分離信号と視覚信号との対応を考慮した音声・音声分離学習手法を提案する。
音声-視覚音声分離は、話者の視覚信号を用いて混合音から個々の音声信号を推定する手法である。
音声-視覚音声分離に関する従来の研究は、主に音源信号と分離信号の間の距離を反映した音声のみ損失の分離モデルを訓練する。
しかし、従来の損失は、話者の特徴や音声情報を含む音声信号の特性を反映していないため、歪みや残音につながる。
そこで本研究では,音声信号と視覚信号の同時発生に基づくクロスモーダル対応(CMC)損失を提案する。
視覚信号は背景雑音の影響を受けず、話者および音声情報を含むため、CMC損失を使用することにより、音声特性を維持しながら音声-視覚音声分離モデルがノイズを除去することができる。
実験の結果,提案手法はCMC損失に基づいて共起を学習し,分離性能を向上することを示した。
関連論文リスト
- Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Disentangling speech from surroundings with neural embeddings [17.958451380305892]
ニューラルオーディオの埋め込み空間における雑音の多い環境から音声信号を分離する手法を提案する。
本稿では,ベクトルを埋め込んだ音声波形の構造化符号化を実現するための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T13:58:33Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。