論文の概要: How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model
- arxiv url: http://arxiv.org/abs/2408.05411v1
- Date: Sat, 10 Aug 2024 02:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 19:11:07.043272
- Title: How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model
- Title(参考訳): 音声は全方向ビデオの視覚的注意にどのように影響するか? データベースとモデル
- Authors: Yuxin Zhu, Huiyu Duan, Kaiwei Zhang, Yucheng Zhu, Xilei Zhu, Long Teng, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 本稿では,全方向ビデオ(ODV)における音声・視覚的注意を主観的視点と客観的視点の両方から包括的に検討する。
AVS-ODVデータベースに基づく新たなベンチマークを構築した。
- 参考スコア(独自算出の注目度): 50.15552768350462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and predicting viewer attention in omnidirectional videos (ODVs) is crucial for enhancing user engagement in virtual and augmented reality applications. Although both audio and visual modalities are essential for saliency prediction in ODVs, the joint exploitation of these two modalities has been limited, primarily due to the absence of large-scale audio-visual saliency databases and comprehensive analyses. This paper comprehensively investigates audio-visual attention in ODVs from both subjective and objective perspectives. Specifically, we first introduce a new audio-visual saliency database for omnidirectional videos, termed AVS-ODV database, containing 162 ODVs and corresponding eye movement data collected from 60 subjects under three audio modes including mute, mono, and ambisonics. Based on the constructed AVS-ODV database, we perform an in-depth analysis of how audio influences visual attention in ODVs. To advance the research on audio-visual saliency prediction for ODVs, we further establish a new benchmark based on the AVS-ODV database by testing numerous state-of-the-art saliency models, including visual-only models and audio-visual models. In addition, given the limitations of current models, we propose an innovative omnidirectional audio-visual saliency prediction network (OmniAVS), which is built based on the U-Net architecture, and hierarchically fuses audio and visual features from the multimodal aligned embedding space. Extensive experimental results demonstrate that the proposed OmniAVS model outperforms other state-of-the-art models on both ODV AVS prediction and traditional AVS predcition tasks. The AVS-ODV database and OmniAVS model will be released to facilitate future research.
- Abstract(参考訳): 全方向ビデオ(ODV)における視聴者の注意力の理解と予測は、仮想現実および拡張現実アプリケーションにおけるユーザのエンゲージメントを高めるために不可欠である。
音声と視覚の両方のモダリティは、ODVの唾液濃度予測に必須であるが、これら2つのモダリティの併用は、主に大規模オーディオ視覚の唾液濃度データベースの欠如と包括的分析により制限されている。
本稿では、主観的視点と客観的視点の両方から、ODVの音声視覚的注意を包括的に調査する。
162個のODVと、ミュート、モノ、アンビソニクスを含む3つのオーディオモードの下で60人の被験者から収集された対応する眼球運動データを含む全方位ビデオのための新しい音声-視覚情報データベースAVS-ODVデータベースを最初に紹介する。
構築されたAVS-ODVデータベースに基づいて,音声がODVの視覚的注意に与える影響を詳細に分析する。
AVS-ODVデータベースをベースとして,視覚のみのモデルや音声視覚モデルを含む多数の最先端のサリエンシモデルをテストすることで,ODVに対する音声視覚的サリエンシ予測の研究を前進させるため,新たなベンチマークを確立する。
さらに,現行モデルの限界を踏まえ,U-Netアーキテクチャに基づいて構築され,階層的にマルチモーダルな組込み空間からオーディオと視覚機能を融合した,一方向のオーディオ・ビジュアル・サリエンシ予測ネットワーク(OmniAVS)を提案する。
OmniAVSモデルは、ODV AVS予測と従来のAVS予測の両方において、他の最先端モデルよりも優れていた。
AVS-ODVデータベースとOmniAVSモデルは、将来の研究を促進するためにリリースされる。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - Audio-visual Saliency for Omnidirectional Videos [58.086575606742116]
私たちはまず、全方向ビデオ(AVS-ODV)のための最大のオーディオ・ビジュアル・サリエンシデータセットを確立する。
AVS-ODVデータセットに基づく全方位音響モーダル性および視覚シーン下での観察者の視覚的注意行動を分析する。
論文 参考訳(メタデータ) (2023-11-09T08:03:40Z) - Perceptual Quality Assessment of Omnidirectional Audio-visual Signals [37.73157112698111]
全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
論文 参考訳(メタデータ) (2023-07-20T12:21:26Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - STAViS: Spatio-Temporal AudioVisual Saliency Network [45.04894808904767]
STAViSは視覚的サリエンシと聴覚機能を組み合わせたネットワークである。
音源を適切に局所化し、2つの塩分を融合させて最終的な塩分マップを得る。
提案手法を8種類の最先端ビジュアル・サリエンシ・モデルと比較した。
論文 参考訳(メタデータ) (2020-01-09T15:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。