論文の概要: Spherical Vision Transformers for Audio-Visual Saliency Prediction in 360-Degree Videos
- arxiv url: http://arxiv.org/abs/2508.20221v1
- Date: Wed, 27 Aug 2025 19:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.733282
- Title: Spherical Vision Transformers for Audio-Visual Saliency Prediction in 360-Degree Videos
- Title(参考訳): 360度ビデオにおける球面視覚変換器による聴覚・視覚の相性予測
- Authors: Mert Cokelek, Halit Ozsoy, Nevrez Imamoglu, Cagri Ozcinar, Inci Ayhan, Erkut Erdem, Aykut Erdem,
- Abstract要約: 本研究では, 球面歪みの複雑さと空間音声の統合に対処するため, 塩分濃度予測の領域を360度環境まで拡張する。
この研究は、360度オーディオ・ビジュアル・サリエンシ予測のための包括的なデータセットが欠如していることから、81ODVの新しいデータセットであるYT360-EyeTrackingをキュレートする。
私たちのゴールは、360度ビデオの視覚的サリエンシを効果的に予測するために、オーディオ・ビジュアル・キューを利用する方法を探ることです。
- 参考スコア(独自算出の注目度): 15.59763872743732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnidirectional videos (ODVs) are redefining viewer experiences in virtual reality (VR) by offering an unprecedented full field-of-view (FOV). This study extends the domain of saliency prediction to 360-degree environments, addressing the complexities of spherical distortion and the integration of spatial audio. Contextually, ODVs have transformed user experience by adding a spatial audio dimension that aligns sound direction with the viewer's perspective in spherical scenes. Motivated by the lack of comprehensive datasets for 360-degree audio-visual saliency prediction, our study curates YT360-EyeTracking, a new dataset of 81 ODVs, each observed under varying audio-visual conditions. Our goal is to explore how to utilize audio-visual cues to effectively predict visual saliency in 360-degree videos. Towards this aim, we propose two novel saliency prediction models: SalViT360, a vision-transformer-based framework for ODVs equipped with spherical geometry-aware spatio-temporal attention layers, and SalViT360-AV, which further incorporates transformer adapters conditioned on audio input. Our results on a number of benchmark datasets, including our YT360-EyeTracking, demonstrate that SalViT360 and SalViT360-AV significantly outperform existing methods in predicting viewer attention in 360-degree scenes. Interpreting these results, we suggest that integrating spatial audio cues in the model architecture is crucial for accurate saliency prediction in omnidirectional videos. Code and dataset will be available at https://cyberiada.github.io/SalViT360.
- Abstract(参考訳): Omnidirectional Video (ODVs) は、VR(VR)における視聴者体験を再定義し、前例のないフルフィールド・オブ・ビュー(FOV)を提供する。
本研究では, 球面歪みの複雑さと空間音声の統合に対処するため, 塩分濃度予測の領域を360度環境まで拡張する。
音の方向を球面シーンの視聴者の視点に合わせる空間的オーディオディメンションを追加することで、ODVはユーザエクスペリエンスを変革した。
本研究は、360度視線量予測のための包括的データセットの欠如により、81のODVからなる新しいデータセットであるYT360-EyeTrackingを、それぞれ異なるオーディオ視覚条件下で観測する。
私たちのゴールは、360度ビデオの視覚的サリエンシを効果的に予測するために、オーディオ・ビジュアル・キューを利用する方法を探ることです。
この目的のために,球面形状対応の時空間注意層を備えたODV用視覚変換器ベースのフレームワークであるSalViT360と,さらに音声入力に条件付トランスフォーマアダプタを組み込んだSalViT360-AVの2つの新しいサリエンシ予測モデルを提案する。
YT360-EyeTrackingなど,多数のベンチマークデータセットによる結果から,SalViT360とSalViT360-AVは,360度のシーンにおける視聴者の注目度を予測する上で,既存の手法よりも有意に優れていることが示された。
これらの結果を踏まえ,全方向ビデオの精度予測には,空間的オーディオキューをモデルアーキテクチャに統合することが不可欠であることが示唆された。
コードとデータセットはhttps://cyberiada.github.io/SalViT360で入手できる。
関連論文リスト
- OmniAudio: Generating Spatial Audio from 360-Degree Video [91.56286471271513]
我々は,360度ビデオから空間音声を生成する新しいタスクである360V2SAを導入する。
本稿では,空間音声データと大規模非空間データの両方を用いて,自己教師付き事前学習を利用する新しいフレームワークOmniAudioを提案する。
実験により、OmniAudioは客観的指標と主観的指標の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-21T07:21:28Z) - MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views [90.26609689682876]
MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
論文 参考訳(メタデータ) (2024-11-07T17:59:31Z) - How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model [50.15552768350462]
本稿では,全方向ビデオ(ODV)における音声・視覚的注意を主観的視点と客観的視点の両方から包括的に検討する。
AVS-ODVデータベースに基づく新たなベンチマークを構築した。
論文 参考訳(メタデータ) (2024-08-10T02:45:46Z) - 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation [13.122586587748218]
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
論文 参考訳(メタデータ) (2024-07-19T06:50:24Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。