論文の概要: Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation
- arxiv url: http://arxiv.org/abs/2104.02775v1
- Date: Thu, 25 Mar 2021 15:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 21:16:27.555105
- Title: Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation
- Title(参考訳): 音声を聴く:音声・視覚的音声分離のための相互親和性学習
- Authors: Jiyoung Lee, Soo-Whan Chung, Sunok Kim, Hong-Goo Kang, Kwanghoon Sohn
- Abstract要約: 本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
- 参考スコア(独自算出の注目度): 73.1652905564163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of separating individual speech signals
from videos using audio-visual neural processing. Most conventional approaches
utilize frame-wise matching criteria to extract shared information between
co-occurring audio and video. Thus, their performance heavily depends on the
accuracy of audio-visual synchronization and the effectiveness of their
representations. To overcome the frame discontinuity problem between two
modalities due to transmission delay mismatch or jitter, we propose a
cross-modal affinity network (CaffNet) that learns global correspondence as
well as locally-varying affinities between audio and visual streams. Given that
the global term provides stability over a temporal sequence at the
utterance-level, this resolves the label permutation problem characterized by
inconsistent assignments. By extending the proposed cross-modal affinity on the
complex network, we further improve the separation performance in the complex
spectral domain. Experimental results verify that the proposed methods
outperform conventional ones on various datasets, demonstrating their
advantages in real-world scenarios.
- Abstract(参考訳): 本稿では,映像から個々の音声信号を分離する問題を視聴覚ニューラル処理を用いて解決する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
したがって、その性能は、音声-視覚同期の精度と、その表現の有効性に大きく依存する。
送信遅延ミスマッチやジッタによる2つのモード間のフレーム不連続性問題を解決するために,大域的対応と音声ストリームと視覚ストリーム間の局所的な親和性を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
グローバル項が発話レベルにおける時間列の安定性を提供するので、これは不整合代入によって特徴づけられるラベル置換問題を解く。
複素ネットワーク上で提案するクロスモーダル親和性を拡張することにより、複素スペクトル領域における分離性能をさらに向上する。
実験により,提案手法は様々なデータセット上で従来の手法よりも優れており,実世界のシナリオにおいてその利点が示された。
関連論文リスト
- Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Audio-visual speech separation based on joint feature representation
with cross-modal attention [45.210105822471256]
本研究は,アテンション機構を備えた音声と視覚ストリームから,共同特徴表現を学習することから着想を得たものである。
音声と視覚の分離をさらに改善するため、唇の動きの濃密な光学的流れが組み込まれている。
性能の全体的な改善により、追加のモーションネットワークは、唇画像と音声信号の組み合わせによる視覚的表現を効果的に強化することを示した。
論文 参考訳(メタデータ) (2022-03-05T04:39:46Z) - Self-Supervised Audio-Visual Representation Learning with Relaxed
Cross-Modal Temporal Synchronicity [12.995632804090198]
CrissCrossは、音声視覚表現を学習するための自己教師型フレームワークである。
音声と視覚の時間的同期を緩和することにより、ネットワークは強い時間不変表現を学習することを示す。
論文 参考訳(メタデータ) (2021-11-09T20:24:19Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。