論文の概要: ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos
- arxiv url: http://arxiv.org/abs/2011.10600v1
- Date: Fri, 20 Nov 2020 19:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:32:56.036837
- Title: ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos
- Title(参考訳): ATSal:360度ビデオの可用性予測のための注意ベースのアーキテクチャ
- Authors: Yasser Dahou, Marouane Tliba, Kevin McGuinness, Noel O'Connor
- Abstract要約: 本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 5.831115928056554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spherical domain representation of 360 video/image presents many
challenges related to the storage, processing, transmission and rendering of
omnidirectional videos (ODV). Models of human visual attention can be used so
that only a single viewport is rendered at a time, which is important when
developing systems that allow users to explore ODV with head mounted displays
(HMD). Accordingly, researchers have proposed various saliency models for 360
video/images. This paper proposes ATSal, a novel attention based (head-eye)
saliency model for 360\degree videos. The attention mechanism explicitly
encodes global static visual attention allowing expert models to focus on
learning the saliency on local patches throughout consecutive frames. We
compare the proposed approach to other state-of-the-art saliency models on two
datasets: Salient360! and VR-EyeTracking. Experimental results on over 80 ODV
videos (75K+ frames) show that the proposed method outperforms the existing
state-of-the-art.
- Abstract(参考訳): 360ビデオ/イメージの球面領域表現は、全方向ビデオ(ODV)の保存、処理、送信、レンダリングに関する多くの課題を提示する。
人間の視覚的注意のモデルは、一度に1つのビューポートのみをレンダリングするために使用することができ、これはユーザがヘッドマウントディスプレイ(HMD)でODVを探索できるシステムの開発において重要である。
そのため、研究者は360度ビデオ/画像のための様々なサリエンシモデルを提案した。
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
アテンションメカニズムは、グローバルな静的アテンションを明示的にエンコードすることで、専門家モデルが連続したフレームを通してローカルパッチのサリエンシを学習することに集中できるようにする。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
関連論文リスト
- MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views [90.26609689682876]
MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
論文 参考訳(メタデータ) (2024-11-07T17:59:31Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - See360: Novel Panoramic View Interpolation [24.965259708297932]
See360は、潜在空間視点推定を用いた360パノラマビューのための汎用的で効率的なフレームワークである。
提案手法は,4つのデータセットに対する任意のビューのリアルタイムレンダリングを実現するのに十分な汎用性を有することを示す。
論文 参考訳(メタデータ) (2024-01-07T09:17:32Z) - An Integrated System for Spatio-Temporal Summarization of 360-degrees
Videos [6.8292720972215974]
本稿では,360度ビデオの要約システムを提案する。
ビデオ制作は主にイベントとそのシナプスを簡潔な要約に検出する。
この分析は、360度ビデオの正当性検出のための最先端の手法に依存している。
論文 参考訳(メタデータ) (2023-12-05T08:48:31Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - NeO 360: Neural Fields for Sparse View Synthesis of Outdoor Scenes [59.15910989235392]
屋外シーンのスパースビュー合成のためのNeO 360, Neural Fieldを紹介する。
NeO 360は、単一のまたは少数のRGB画像から360degのシーンを再構成する一般化可能な方法である。
我々の表現は、Voxel-basedとBird's-eye-view (BEV)の両方の表現の長所を組み合わせたものである。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文 参考訳(メタデータ) (2022-09-19T12:23:34Z) - Perceptual Quality Assessment of Omnidirectional Images as Moving Camera
Videos [49.217528156417906]
ユーザの視聴行動やパノラマの知覚的品質を決定するには,2種類のVR視聴条件が不可欠である。
まず、異なる視聴条件下での異なるユーザの視聴行動を用いて、一方向の画像を複数のビデオ表現に変換する。
次に、高度な2次元フルレファレンスビデオ品質モデルを活用して、知覚された品質を計算する。
論文 参考訳(メタデータ) (2020-05-21T10:03:40Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。