論文の概要: Spherical Vision Transformer for 360-degree Video Saliency Prediction
- arxiv url: http://arxiv.org/abs/2308.13004v1
- Date: Thu, 24 Aug 2023 18:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:20:49.139481
- Title: Spherical Vision Transformer for 360-degree Video Saliency Prediction
- Title(参考訳): 360度ビデオサリエンシー予測のための球面視覚トランスフォーマ
- Authors: Mert Cokelek, Nevrez Imamoglu, Cagri Ozcinar, Erkut Erdem, Aykut Erdem
- Abstract要約: 本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
- 参考スコア(独自算出の注目度): 17.948179628551376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing interest in omnidirectional videos (ODVs) that capture the full
field-of-view (FOV) has gained 360-degree saliency prediction importance in
computer vision. However, predicting where humans look in 360-degree scenes
presents unique challenges, including spherical distortion, high resolution,
and limited labelled data. We propose a novel vision-transformer-based model
for omnidirectional videos named SalViT360 that leverages tangent image
representations. We introduce a spherical geometry-aware spatiotemporal
self-attention mechanism that is capable of effective omnidirectional video
understanding. Furthermore, we present a consistency-based unsupervised
regularization term for projection-based 360-degree dense-prediction models to
reduce artefacts in the predictions that occur after inverse projection. Our
approach is the first to employ tangent images for omnidirectional saliency
prediction, and our experimental results on three ODV saliency datasets
demonstrate its effectiveness compared to the state-of-the-art.
- Abstract(参考訳): 全視野(FOV)を捉えた全方向ビデオ(ODV)への関心が高まり、コンピュータビジョンにおいて360度の精度予測の重要性が高まっている。
しかし、人間の視界を360度で予測することは、球面の歪み、高解像度、ラベル付きデータの制限など、ユニークな課題をもたらす。
タンジェント画像表現を利用した全方位ビデオのための新しい視覚変換器モデルSalViT360を提案する。
本稿では,全方位映像を効果的に理解できる球面形状認識型時空間自己着機構を提案する。
さらに,逆射影後の予測におけるアーティファクトを削減するために,投影に基づく360度高密度予測モデルに対する一貫性に基づく教師なし正規化項を提案する。
提案手法は,全方位サリエンシー予測に接する画像を用いた最初の手法であり,odvサリエンシーデータセットを用いた実験により,その効果を示す。
関連論文リスト
- HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - MRGAN360: Multi-stage Recurrent Generative Adversarial Network for 360
Degree Image Saliency Prediction [10.541086214760497]
MRGAN360 と呼ばれる ODI のための多段階連続生成対向ネットワークを提案する。
各段階で、予測モデルは、元の画像と前のステージの出力を入力として、より正確な唾液マップを出力する。
相関関係をモデル化するために、隣接した予測段階間で繰り返しニューラルネットワークを用い、各段階の終端における判別器を利用して出力唾液マップを監督する。
論文 参考訳(メタデータ) (2023-03-15T11:15:03Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文 参考訳(メタデータ) (2022-09-19T12:23:34Z) - Learning Omnidirectional Flow in 360-degree Video via Siamese
Representation [11.421244426346389]
本稿では,360度視野を持つ最初の知覚合成全方位ベンチマークデータセットFLOW360を提案する。
我々はSLOF(Omnidirectional Flow)のための新しいSiamese表現学習フレームワークを提案する。
提案したフレームワークの有効性を検証し、最先端のアプローチに対して最大40%の性能改善を示す実験である。
論文 参考訳(メタデータ) (2022-08-07T02:24:30Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback [16.716422953229088]
視野(FoV)予測は360度ビデオマルチキャストにおいて重要である。
本稿では,球面畳み込みを用いたFoV予測法を提案する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-01-29T08:32:19Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - Perceptual Quality Assessment of Omnidirectional Images as Moving Camera
Videos [49.217528156417906]
ユーザの視聴行動やパノラマの知覚的品質を決定するには,2種類のVR視聴条件が不可欠である。
まず、異なる視聴条件下での異なるユーザの視聴行動を用いて、一方向の画像を複数のビデオ表現に変換する。
次に、高度な2次元フルレファレンスビデオ品質モデルを活用して、知覚された品質を計算する。
論文 参考訳(メタデータ) (2020-05-21T10:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。