論文の概要: Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback
- arxiv url: http://arxiv.org/abs/2201.12525v1
- Date: Sat, 29 Jan 2022 08:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 06:20:21.629616
- Title: Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback
- Title(参考訳): 限定FoVフィードバックを用いた360度ビデオマルチキャストにおける球面畳み込みによるFoV予測
- Authors: Jie Li, Ling Han, Cong Zhang, Qiyue Li, Zhi Liu
- Abstract要約: 視野(FoV)予測は360度ビデオマルチキャストにおいて重要である。
本稿では,球面畳み込みを用いたFoV予測法を提案する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 16.716422953229088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Field of view (FoV) prediction is critical in 360-degree video multicast,
which is a key component of the emerging Virtual Reality (VR) and Augmented
Reality (AR) applications. Most of the current prediction methods combining
saliency detection and FoV information neither take into account that the
distortion of projected 360-degree videos can invalidate the weight sharing of
traditional convolutional networks, nor do they adequately consider the
difficulty of obtaining complete multi-user FoV information, which degrades the
prediction performance. This paper proposes a spherical convolution-empowered
FoV prediction method, which is a multi-source prediction framework combining
salient features extracted from 360-degree video with limited FoV feedback
information. A spherical convolution neural network (CNN) is used instead of a
traditional two-dimensional CNN to eliminate the problem of weight sharing
failure caused by video projection distortion. Specifically, salient
spatial-temporal features are extracted through a spherical convolution-based
saliency detection model, after which the limited feedback FoV information is
represented as a time-series model based on a spherical convolution-empowered
gated recurrent unit network. Finally, the extracted salient video features are
combined to predict future user FoVs. The experimental results show that the
performance of the proposed method is better than other prediction methods.
- Abstract(参考訳): 視野予測(fov)は、新興の仮想現実(vr)と拡張現実(ar)アプリケーションの主要なコンポーネントである360度ビデオマルチキャストにおいて極めて重要である。
精度検出とFoV情報を組み合わせた現在の予測手法の多くは、投影された360度ビデオの歪みが従来の畳み込みネットワークの重み付けを無効にすることや、予測性能を低下させる完全マルチユーザFoV情報を得る難しさを適切に考慮しない。
本稿では,360度ビデオから抽出した有意な特徴と限られたFoVフィードバック情報を組み合わせたマルチソース予測フレームワークである球面畳み込みを用いたFoV予測手法を提案する。
従来の2次元CNNの代わりに球面畳み込みニューラルネットワーク(CNN)を用いて、映像投影歪みに起因する重み共有障害の問題を解消する。
具体的には、球状畳み込みをベースとした塩分濃度検出モデルを用いて空間的空間的特徴を抽出し、その後、有限フィードバックFoV情報を球状畳み込み駆動ゲート再帰単位ネットワークに基づいて時系列モデルとして表現する。
最後に、抽出されたサルエントビデオ機能を組み合わせて、将来のユーザfovを予測する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
関連論文リスト
- Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。