論文の概要: Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model
- arxiv url: http://arxiv.org/abs/2103.15438v1
- Date: Mon, 29 Mar 2021 09:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:54:45.641544
- Title: Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model
- Title(参考訳): サルエントな顔を予測するための学習:新しい視覚聴覚サルエンシーモデル
- Authors: Yufan Liu, Minglang Qiao, Mai Xu, Bing Li, Weiming Hu, Ali Borji
- Abstract要約: 本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
- 参考スコア(独自算出の注目度): 96.24038430433885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video streams have occupied a large proportion of Internet traffic,
most of which contain human faces. Hence, it is necessary to predict saliency
on multiple-face videos, which can provide attention cues for many content
based applications. However, most of multiple-face saliency prediction works
only consider visual information and ignore audio, which is not consistent with
the naturalistic scenarios. Several behavioral studies have established that
sound influences human attention, especially during the speech turn-taking in
multiple-face videos. In this paper, we thoroughly investigate such influences
by establishing a large-scale eye-tracking database of Multiple-face Video in
Visual-Audio condition (MVVA). Inspired by the findings of our investigation,
we propose a novel multi-modal video saliency model consisting of three
branches: visual, audio and face. The visual branch takes the RGB frames as the
input and encodes them into visual feature maps. The audio and face branches
encode the audio signal and multiple cropped faces, respectively. A fusion
module is introduced to integrate the information from three modalities, and to
generate the final saliency map. Experimental results show that the proposed
method outperforms 11 state-of-the-art saliency prediction works. It performs
closer to human multi-modal attention.
- Abstract(参考訳): 近年、ビデオストリームはインターネットトラフィックの大部分を占めており、その大半は人間の顔を含んでいる。
したがって、多くのコンテンツベースのアプリケーションに対して注意を引かせることができる多面ビデオのサリエンシーを予測する必要がある。
しかし、視覚情報のみを考慮し、自然主義的なシナリオと整合しない音声を無視する多面性予測の作業はほとんどである。
いくつかの行動研究では、音は人間の注意に影響を与え、特に多面ビデオの音声のターンテイク中に顕著である。
本稿では,視覚聴覚状態(mvva)における多面映像の大規模視線追跡データベースを構築し,その影響を徹底的に検討する。
本研究の成果に触発されて,視覚,音声,顔の3つの枝からなる新しいマルチモーダル・ビデオ・サリエンシ・モデルを提案する。
ビジュアルブランチはRGBフレームを入力として、それらを視覚的特徴マップにエンコードする。
音声と顔の分岐は、それぞれオーディオ信号と複数の切り抜き顔とを符号化する。
3つのモダリティからの情報を統合するためにフュージョンモジュールを導入し、最後のサリエンシーマップを生成する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
人間のマルチモーダル・アテンションに近い働きをする。
関連論文リスト
- Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。