論文の概要: Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback
- arxiv url: http://arxiv.org/abs/2201.12525v1
- Date: Sat, 29 Jan 2022 08:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 06:20:21.629616
- Title: Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback
- Title(参考訳): 限定FoVフィードバックを用いた360度ビデオマルチキャストにおける球面畳み込みによるFoV予測
- Authors: Jie Li, Ling Han, Cong Zhang, Qiyue Li, Zhi Liu
- Abstract要約: 視野(FoV)予測は360度ビデオマルチキャストにおいて重要である。
本稿では,球面畳み込みを用いたFoV予測法を提案する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 16.716422953229088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Field of view (FoV) prediction is critical in 360-degree video multicast,
which is a key component of the emerging Virtual Reality (VR) and Augmented
Reality (AR) applications. Most of the current prediction methods combining
saliency detection and FoV information neither take into account that the
distortion of projected 360-degree videos can invalidate the weight sharing of
traditional convolutional networks, nor do they adequately consider the
difficulty of obtaining complete multi-user FoV information, which degrades the
prediction performance. This paper proposes a spherical convolution-empowered
FoV prediction method, which is a multi-source prediction framework combining
salient features extracted from 360-degree video with limited FoV feedback
information. A spherical convolution neural network (CNN) is used instead of a
traditional two-dimensional CNN to eliminate the problem of weight sharing
failure caused by video projection distortion. Specifically, salient
spatial-temporal features are extracted through a spherical convolution-based
saliency detection model, after which the limited feedback FoV information is
represented as a time-series model based on a spherical convolution-empowered
gated recurrent unit network. Finally, the extracted salient video features are
combined to predict future user FoVs. The experimental results show that the
performance of the proposed method is better than other prediction methods.
- Abstract(参考訳): 視野予測(fov)は、新興の仮想現実(vr)と拡張現実(ar)アプリケーションの主要なコンポーネントである360度ビデオマルチキャストにおいて極めて重要である。
精度検出とFoV情報を組み合わせた現在の予測手法の多くは、投影された360度ビデオの歪みが従来の畳み込みネットワークの重み付けを無効にすることや、予測性能を低下させる完全マルチユーザFoV情報を得る難しさを適切に考慮しない。
本稿では,360度ビデオから抽出した有意な特徴と限られたFoVフィードバック情報を組み合わせたマルチソース予測フレームワークである球面畳み込みを用いたFoV予測手法を提案する。
従来の2次元CNNの代わりに球面畳み込みニューラルネットワーク(CNN)を用いて、映像投影歪みに起因する重み共有障害の問題を解消する。
具体的には、球状畳み込みをベースとした塩分濃度検出モデルを用いて空間的空間的特徴を抽出し、その後、有限フィードバックFoV情報を球状畳み込み駆動ゲート再帰単位ネットワークに基づいて時系列モデルとして表現する。
最後に、抽出されたサルエントビデオ機能を組み合わせて、将来のユーザfovを予測する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
関連論文リスト
- Spatial Visibility and Temporal Dynamics: Revolutionizing Field of View Prediction in Adaptive Point Cloud Video Streaming [19.0599625095738]
フィールド・オブ・ビュー適応ストリーミングは没入型クラウドビデオの帯域幅を著しく削減する。
伝統的なアプローチは、しばしば軌跡に基づく6自由度(6DoF)のFoV予測に焦点を当てる。
細胞可視性の観点からPCV FoV予測問題を再構成する。
論文 参考訳(メタデータ) (2024-09-26T19:27:11Z) - MADRL-Based Rate Adaptation for 360° Video Streaming with Multi-Viewpoint Prediction [3.8611070161950916]
360degビデオ再生の鍵となる課題は、ネットワーク帯域幅が制限された高品質なエクスペリエンス(QoE)を保証することである。
現在、ほとんどの研究は、単一のビューポート予測に基づいてタイルベースの適応型ストリーミング(ABR)に焦点を当てている。
本稿ではまず,複数の視点軌跡を歴史的軌跡として生成する多モード空間的注意変換器を提案する。
その後,360degビデオストリーミングのための多視点予測を用いたマルチエージェントディープ強化学習(MADRL)に基づくABRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-13T13:59:59Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。