論文の概要: Audio-visual Saliency for Omnidirectional Videos
- arxiv url: http://arxiv.org/abs/2311.05190v1
- Date: Thu, 9 Nov 2023 08:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:54:05.547130
- Title: Audio-visual Saliency for Omnidirectional Videos
- Title(参考訳): 指向性ビデオの視覚的サリエンシ
- Authors: Yuxin Zhu, Xilei Zhu, Huiyu Duan, Jie Li, Kaiwei Zhang, Yucheng Zhu,
Li Chen, Xiongkuo Min, Guangtao Zhai
- Abstract要約: 私たちはまず、全方向ビデオ(AVS-ODV)のための最大のオーディオ・ビジュアル・サリエンシデータセットを確立する。
AVS-ODVデータセットに基づく全方位音響モーダル性および視覚シーン下での観察者の視覚的注意行動を分析する。
- 参考スコア(独自算出の注目度): 58.086575606742116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual saliency prediction for omnidirectional videos (ODVs) has shown great
significance and necessity for omnidirectional videos to help ODV coding, ODV
transmission, ODV rendering, etc.. However, most studies only consider visual
information for ODV saliency prediction while audio is rarely considered
despite its significant influence on the viewing behavior of ODV. This is
mainly due to the lack of large-scale audio-visual ODV datasets and
corresponding analysis. Thus, in this paper, we first establish the largest
audio-visual saliency dataset for omnidirectional videos (AVS-ODV), which
comprises the omnidirectional videos, audios, and corresponding captured
eye-tracking data for three video sound modalities including mute, mono, and
ambisonics. Then we analyze the visual attention behavior of the observers
under various omnidirectional audio modalities and visual scenes based on the
AVS-ODV dataset. Furthermore, we compare the performance of several
state-of-the-art saliency prediction models on the AVS-ODV dataset and
construct a new benchmark. Our AVS-ODV datasets and the benchmark will be
released to facilitate future research.
- Abstract(参考訳): 全方向ビデオ(ODV)の視覚的サリエンシ予測は、全方向ビデオがODV符号化、ODV伝送、ODVレンダリングなどを支援する上で非常に重要かつ必要であることを示している。
しかし、ほとんどの研究は、ODVの視聴行動に大きな影響を及ぼすにもかかわらず、音声はめったに考慮されないが、ODVの精度予測のための視覚情報のみを考慮する。
これは主に、大規模オーディオ視覚型ODVデータセットの欠如とそれに対応する分析が原因である。
そこで,本稿では,全方位映像,音声,およびミュート,モノ,アンビソニックといった3種類の映像音声の視線追跡データを含む全方位映像(avs-odv)に対して,最大規模の音声ビジュアルサリエンシーデータセットを構築した。
次に、AVS-ODVデータセットに基づいて、全方向のオーディオモーダルと視覚シーンの観察者の視覚的注意行動を分析する。
さらに,avs-odvデータセットにおける最先端のsaliency予測モデルの性能を比較し,新しいベンチマークを構築した。
AVS-ODVデータセットとベンチマークは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Temporally Aligned Audio for Video with Autoregression [17.019400481122872]
V-AURAはビデオ・オーディオ生成において時間的アライメントと関連性を達成する最初の自己回帰モデルである。
VisualSoundは、高いオーディオと視覚の関連性を持つベンチマークデータセットである。
論文 参考訳(メタデータ) (2024-09-20T17:59:01Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model [50.15552768350462]
本稿では,全方向ビデオ(ODV)における音声・視覚的注意を主観的視点と客観的視点の両方から包括的に検討する。
AVS-ODVデータベースに基づく新たなベンチマークを構築した。
論文 参考訳(メタデータ) (2024-08-10T02:45:46Z) - Perceptual Quality Assessment of Omnidirectional Audio-visual Signals [37.73157112698111]
全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
論文 参考訳(メタデータ) (2023-07-20T12:21:26Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。