論文の概要: Audio-visual speech separation based on joint feature representation
with cross-modal attention
- arxiv url: http://arxiv.org/abs/2203.02655v1
- Date: Sat, 5 Mar 2022 04:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 07:42:02.934424
- Title: Audio-visual speech separation based on joint feature representation
with cross-modal attention
- Title(参考訳): クロスモーダル注意を考慮した共同特徴表現に基づく音声・視覚音声の分離
- Authors: Junwen Xiong, Peng Zhang, Lei Xie, Wei Huang, Yufei Zha, Yanning Zhang
- Abstract要約: 本研究は,アテンション機構を備えた音声と視覚ストリームから,共同特徴表現を学習することから着想を得たものである。
音声と視覚の分離をさらに改善するため、唇の動きの濃密な光学的流れが組み込まれている。
性能の全体的な改善により、追加のモーションネットワークは、唇画像と音声信号の組み合わせによる視覚的表現を効果的に強化することを示した。
- 参考スコア(独自算出の注目度): 45.210105822471256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal based speech separation has exhibited a specific advantage on
isolating the target character in multi-talker noisy environments.
Unfortunately, most of current separation strategies prefer a straightforward
fusion based on feature learning of each single modality, which is far from
sufficient consideration of inter-relationships between modalites. Inspired by
learning joint feature representations from audio and visual streams with
attention mechanism, in this study, a novel cross-modal fusion strategy is
proposed to benefit the whole framework with semantic correlations between
different modalities. To further improve audio-visual speech separation, the
dense optical flow of lip motion is incorporated to strengthen the robustness
of visual representation. The evaluation of the proposed work is performed on
two public audio-visual speech separation benchmark datasets. The overall
improvement of the performance has demonstrated that the additional motion
network effectively enhances the visual representation of the combined lip
images and audio signal, as well as outperforming the baseline in terms of all
metrics with the proposed cross-modal fusion.
- Abstract(参考訳): マルチモーダル音声分離は,マルチストーカーノイズ環境において,対象文字の分離に特に有利である。
残念なことに、現在の分離戦略のほとんどは、1つのモダリティの機能学習に基づく直接的な融合を好むが、モダライト間の相互関係の十分な考慮からは程遠い。
そこで本研究では,異なるモーダル間の意味的相関によるフレームワーク全体のメリットを活かすために,音声と視覚ストリームの連成特徴表現を注意機構で学習することによって,新たな相互融合戦略を提案する。
音声と視覚の分離をさらに改善するため、唇の動きの濃密な光学的流れを取り入れ、視覚表現の堅牢性を高める。
提案手法の評価は,2つの公開音声・視覚音声分離ベンチマークデータセットを用いて行った。
性能の全体的な改善により、追加のモーションネットワークは、唇画像と音声信号の視覚的表現を効果的に強化し、提案したクロスモーダル融合による全ての指標でベースラインを上回ることを示した。
関連論文リスト
- Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network [12.200776612016698]
本稿では,特徴分布適応ネットワーク(Feature Distribution Adapted Network)と呼ばれる新しい深層帰納学習フレームワークを提案する。
本手法は,感情の一貫した表現を得るために,深層移動学習戦略を用いて視覚的特徴分布と音声的特徴分布を整列させることを目的とする。
論文 参考訳(メタデータ) (2024-10-29T13:13:30Z) - Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - Audio-Visual Event Localization via Recursive Fusion by Joint
Co-Attention [25.883429290596556]
音声-視覚イベントのローカライゼーションタスクにおける大きな課題は、複数のモーダルからの情報を効果的に融合する方法にある。
近年の研究では、核融合プロセスにおいて注意機構が有用であることが示されている。
音声・視覚イベントの局所化のためのマルチモーダル融合法を用いた新しい共同注意機構を提案する。
論文 参考訳(メタデータ) (2020-08-14T21:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。