論文の概要: Spherical Vision Transformer for 360-degree Video Saliency Prediction
- arxiv url: http://arxiv.org/abs/2308.13004v1
- Date: Thu, 24 Aug 2023 18:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:20:49.139481
- Title: Spherical Vision Transformer for 360-degree Video Saliency Prediction
- Title(参考訳): 360度ビデオサリエンシー予測のための球面視覚トランスフォーマ
- Authors: Mert Cokelek, Nevrez Imamoglu, Cagri Ozcinar, Erkut Erdem, Aykut Erdem
- Abstract要約: 本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
- 参考スコア(独自算出の注目度): 17.948179628551376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing interest in omnidirectional videos (ODVs) that capture the full
field-of-view (FOV) has gained 360-degree saliency prediction importance in
computer vision. However, predicting where humans look in 360-degree scenes
presents unique challenges, including spherical distortion, high resolution,
and limited labelled data. We propose a novel vision-transformer-based model
for omnidirectional videos named SalViT360 that leverages tangent image
representations. We introduce a spherical geometry-aware spatiotemporal
self-attention mechanism that is capable of effective omnidirectional video
understanding. Furthermore, we present a consistency-based unsupervised
regularization term for projection-based 360-degree dense-prediction models to
reduce artefacts in the predictions that occur after inverse projection. Our
approach is the first to employ tangent images for omnidirectional saliency
prediction, and our experimental results on three ODV saliency datasets
demonstrate its effectiveness compared to the state-of-the-art.
- Abstract(参考訳): 全視野(FOV)を捉えた全方向ビデオ(ODV)への関心が高まり、コンピュータビジョンにおいて360度の精度予測の重要性が高まっている。
しかし、人間の視界を360度で予測することは、球面の歪み、高解像度、ラベル付きデータの制限など、ユニークな課題をもたらす。
タンジェント画像表現を利用した全方位ビデオのための新しい視覚変換器モデルSalViT360を提案する。
本稿では,全方位映像を効果的に理解できる球面形状認識型時空間自己着機構を提案する。
さらに,逆射影後の予測におけるアーティファクトを削減するために,投影に基づく360度高密度予測モデルに対する一貫性に基づく教師なし正規化項を提案する。
提案手法は,全方位サリエンシー予測に接する画像を用いた最初の手法であり,odvサリエンシーデータセットを用いた実験により,その効果を示す。
関連論文リスト
- Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation [13.122586587748218]
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
論文 参考訳(メタデータ) (2024-07-19T06:50:24Z) - PanoNormal: Monocular Indoor 360° Surface Normal Estimation [12.992217830651988]
textitPanoNormalは、360deg画像用に設計された単分子表面正規推定アーキテクチャである。
球面特徴分布を考慮した多レベルグローバル自己注意方式を用いる。
提案手法は,複数の一般的な360deg単分子データセットにまたがって,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T04:07:14Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文 参考訳(メタデータ) (2022-09-19T12:23:34Z) - Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback [16.716422953229088]
視野(FoV)予測は360度ビデオマルチキャストにおいて重要である。
本稿では,球面畳み込みを用いたFoV予測法を提案する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-01-29T08:32:19Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - Perceptual Quality Assessment of Omnidirectional Images as Moving Camera
Videos [49.217528156417906]
ユーザの視聴行動やパノラマの知覚的品質を決定するには,2種類のVR視聴条件が不可欠である。
まず、異なる視聴条件下での異なるユーザの視聴行動を用いて、一方向の画像を複数のビデオ表現に変換する。
次に、高度な2次元フルレファレンスビデオ品質モデルを活用して、知覚された品質を計算する。
論文 参考訳(メタデータ) (2020-05-21T10:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。