論文の概要: Dual-path Attention is All You Need for Audio-Visual Speech Extraction
- arxiv url: http://arxiv.org/abs/2207.04213v1
- Date: Sat, 9 Jul 2022 07:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:34:18.822950
- Title: Dual-path Attention is All You Need for Audio-Visual Speech Extraction
- Title(参考訳): 音声・音声の抽出に必要なのはデュアルパス
- Authors: Zhongweiyang Xu, Xulin Fan and Mark Hasegawa-Johnson
- Abstract要約: 音声視覚機能を融合する新しい方法を提案する。
提案アルゴリズムは,視覚的特徴を付加的な特徴ストリームとして組み込む。
その結果,他の時間領域ベース音声-視覚融合モデルと比較して優れた結果が得られた。
- 参考スコア(独自算出の注目度): 34.7260610874298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual target speech extraction, which aims to extract a certain
speaker's speech from the noisy mixture by looking at lip movements, has made
significant progress combining time-domain speech separation models and visual
feature extractors (CNN). One problem of fusing audio and video information is
that they have different time resolutions. Most current research upsamples the
visual features along the time dimension so that audio and video features are
able to align in time. However, we believe that lip movement should mostly
contain long-term, or phone-level information. Based on this assumption, we
propose a new way to fuse audio-visual features. We observe that for DPRNN
\cite{dprnn}, the interchunk dimension's time resolution could be very close to
the time resolution of video frames. Like \cite{sepformer}, the LSTM in DPRNN
is replaced by intra-chunk and inter-chunk self-attention, but in the proposed
algorithm, inter-chunk attention incorporates the visual features as an
additional feature stream. This prevents the upsampling of visual cues,
resulting in more efficient audio-visual fusion. The result shows we achieve
superior results compared with other time-domain based audio-visual fusion
models.
- Abstract(参考訳): 唇の動きから特定の話者の音声を抽出することを目的とした音声-視覚的ターゲット音声抽出は,時間領域の音声分離モデルと視覚特徴抽出器(CNN)を併用して大きく進歩した。
音声とビデオ情報を融合させる場合の問題は、時間分解能が異なることである。
現在のほとんどの研究は、時間軸に沿って視覚的特徴を増幅し、音声とビデオの機能を時間的に整列させることができる。
しかし, 口唇運動には, 主に長期的, あるいは電話レベルの情報が含まれるべきだと考えている。
この仮定に基づき,音声・視覚機能を融合する新しい手法を提案する。
DPRNN \cite{dprnn} の場合、インターチャンク次元の時間分解能はビデオフレームの時間分解能に非常に近い可能性がある。
cite{sepformer}と同様に、DPRNNのLSTMはチャンク内およびチャンク間自己注意に置き換えられるが、提案アルゴリズムでは、チャンク間注意が視覚的特徴を付加的な特徴ストリームとして組み込む。
これにより、視覚的手がかりのアップサンプリングが防止され、より効率的な音声・視覚融合が実現される。
その結果,他の時間領域ベース音声-視覚融合モデルと比較して,優れた結果が得られた。
関連論文リスト
- Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Multi-Temporal Lip-Audio Memory for Visual Speech Recognition [32.65865343643458]
MTLAM(Multi-Temporal Lip-Audio Memory)を提案する。
提案手法は主に2つの部分から構成される: 1) MTLAMは、短期および長期の音声信号から発生する多時間音声特徴を保存し、MTLAMは、推測フェーズにおける視覚的特徴から記憶された多時間音声特徴をロードするための視覚音声マッピングを記憶する。
論文 参考訳(メタデータ) (2023-05-08T08:30:52Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Temporal and cross-modal attention for audio-visual zero-shot learning [38.02396786726476]
ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-20T15:19:30Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。