Fugu-MT 論文翻訳(概要): Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation

論文の概要: Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation

arxiv url: http://arxiv.org/abs/2104.02775v1
Date: Thu, 25 Mar 2021 15:39:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 21:16:27.555105
Title: Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation
Title（参考訳）: 音声を聴く:音声・視覚的音声分離のための相互親和性学習
Authors: Jiyoung Lee, Soo-Whan Chung, Sunok Kim, Hong-Goo Kang, Kwanghoon Sohn
Abstract要約: 本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
参考スコア（独自算出の注目度）: 73.1652905564163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we address the problem of separating individual speech signals from videos using audio-visual neural processing. Most conventional approaches utilize frame-wise matching criteria to extract shared information between co-occurring audio and video. Thus, their performance heavily depends on the accuracy of audio-visual synchronization and the effectiveness of their representations. To overcome the frame discontinuity problem between two modalities due to transmission delay mismatch or jitter, we propose a cross-modal affinity network (CaffNet) that learns global correspondence as well as locally-varying affinities between audio and visual streams. Given that the global term provides stability over a temporal sequence at the utterance-level, this resolves the label permutation problem characterized by inconsistent assignments. By extending the proposed cross-modal affinity on the complex network, we further improve the separation performance in the complex spectral domain. Experimental results verify that the proposed methods outperform conventional ones on various datasets, demonstrating their advantages in real-world scenarios.
Abstract（参考訳）: 本稿では,映像から個々の音声信号を分離する問題を視聴覚ニューラル処理を用いて解決する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。したがって、その性能は、音声-視覚同期の精度と、その表現の有効性に大きく依存する。送信遅延ミスマッチやジッタによる2つのモード間のフレーム不連続性問題を解決するために,大域的対応と音声ストリームと視覚ストリーム間の局所的な親和性を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。グローバル項が発話レベルにおける時間列の安定性を提供するので、これは不整合代入によって特徴づけられるラベル置換問題を解く。複素ネットワーク上で提案するクロスモーダル親和性を拡張することにより、複素スペクトル領域における分離性能をさらに向上する。実験により,提案手法は様々なデータセット上で従来の手法よりも優れており,実世界のシナリオにおいてその利点が示された。

関連論文リスト

GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。 DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。 MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文参考訳（メタデータ） (2025-08-03T10:44:24Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文参考訳（メタデータ） (2025-05-02T12:59:58Z)
UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。 UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-03-20T17:16:03Z)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。 LoCo は局所性対応対応補正 (LCC) を非モーダル特徴に適用する。さらにクロスモーダル・ダイナミック・パーセプション・レイヤ(CDP)をクロスモーダル・フィーチャー・ピラミッドでカスタマイズし、音声視覚イベントの局所的時間パターンを理解する。
論文参考訳（メタデータ） (2024-09-12T11:54:25Z)
Disentangle and denoise: Tackling context misalignment for video moment retrieval [16.939535169282262]
Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
論文参考訳（メタデータ） (2024-08-14T15:00:27Z)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization [29.53063463863921]
我々は、フレームレベルのクロスモーダル監視に量子化オーディオを利用するエンドツーエンド学習フレームワークSyncVSRを提案する。音響データと視覚表現を同期するプロジェクション層を統合することで、エンコーダは、非自己回帰的な方法でビデオシーケンスから離散的なオーディオトークンを生成することを学習する。我々の経験的評価は、最先端の結果を達成するだけでなく、データ使用量を最大9倍に削減できることを示している。
論文参考訳（メタデータ） (2024-06-18T03:14:22Z)
Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。 PMCANet(Progressive Confident Masking Attention Network)を紹介する。注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文参考訳（メタデータ） (2024-06-04T14:21:41Z)
Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文参考訳（メタデータ） (2023-11-14T13:27:03Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文参考訳（メタデータ） (2023-07-06T10:50:46Z)
Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。 DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-16T07:32:31Z)
Multi-Dimensional and Multi-Scale Modeling for Speech Separation Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer) 新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文参考訳（メタデータ） (2023-03-07T08:53:20Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文参考訳（メタデータ） (2020-05-18T10:31:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。