論文の概要: Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos
- arxiv url: http://arxiv.org/abs/2111.08567v1
- Date: Fri, 5 Nov 2021 14:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-21 14:51:51.596092
- Title: Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos
- Title(参考訳): 多面ビデオにおける視覚-聴覚の塩分予測と音源定位に関する共同学習
- Authors: Minglang Qiao, Yufan Liu, Mai Xu, Xin Deng, Bing Li, Weiming Hu, Ali
Borji
- Abstract要約: マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
- 参考スコア(独自算出の注目度): 101.83513408195692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual and audio events simultaneously occur and both attract attention.
However, most existing saliency prediction works ignore the influence of audio
and only consider vision modality. In this paper, we propose a multitask
learning method for visual-audio saliency prediction and sound source
localization on multi-face video by leveraging visual, audio and face
information. Specifically, we first introduce a large-scale database of
multi-face video in visual-audio condition (MVVA), containing eye-tracking data
and sound source annotations. Using this database, we find that sound
influences human attention, and conversly attention offers a cue to determine
sound source on multi-face video. Guided by these findings, a visual-audio
multi-task network (VAM-Net) is introduced to predict saliency and locate sound
source. VAM-Net consists of three branches corresponding to visual, audio and
face modalities. Visual branch has a two-stream architecture to capture spatial
and temporal information. Face and audio branches encode audio signals and
faces, respectively. Finally, a spatio-temporal multi-modal graph (STMG) is
constructed to model the interaction among multiple faces. With joint
optimization of these branches, the intrinsic correlation of the tasks of
saliency prediction and sound source localization is utilized and their
performance is boosted by each other. Experiments show that the proposed method
outperforms 12 state-of-the-art saliency prediction methods, and achieves
competitive results in sound source localization.
- Abstract(参考訳): 視覚イベントと音声イベントが同時に発生し、双方が注目を集める。
しかし、既存のサリエンシ予測は音声の影響を無視し、視覚のモダリティのみを考慮する。
本稿では,視覚,音声,顔の情報を活用し,多面映像におけるビジュアル・オーディオ・サリエンシー予測と音源定位のためのマルチタスク学習手法を提案する。
具体的には、視線追跡データと音源アノテーションを含む視覚音響条件(MVVA)における多面映像の大規模データベースについて紹介する。
このデータベースを用いて、音が人間の注意に影響を与え、会話的注意は多面ビデオの音源を決定する手がかりとなる。
これらの結果から,視覚聴覚マルチタスクネットワーク (vam-net) を導入し,サリエンシーの予測と音源の同定を行った。
VAM-Netは視覚、オーディオ、顔のモダリティに対応する3つのブランチで構成される。
ビジュアルブランチは、空間的および時間的情報をキャプチャする2ストリームアーキテクチャを持つ。
顔と音声の分岐は、それぞれ音声信号と顔を符号化する。
最後に、複数の面間の相互作用をモデル化するために、時空間マルチモーダルグラフ(STMG)を構築する。
これらの分岐を共同で最適化することにより、相性予測や音源定位といったタスクの本質的な相関を生かし、その性能を向上する。
実験により,提案手法は,現在進行中のサリエンシー予測手法12を上回り,音源定位における競合結果を得ることができた。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。