論文の概要: Spatial Visibility and Temporal Dynamics: Revolutionizing Field of View Prediction in Adaptive Point Cloud Video Streaming
- arxiv url: http://arxiv.org/abs/2409.18236v2
- Date: Tue, 1 Oct 2024 21:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:01:18.560744
- Title: Spatial Visibility and Temporal Dynamics: Revolutionizing Field of View Prediction in Adaptive Point Cloud Video Streaming
- Title(参考訳): 空間可視性と時間ダイナミクス:適応的クラウドビデオストリーミングにおける視点予測の革新的領域
- Authors: Chen Li, Tongyu Zong, Yueyu Hu, Yao Wang, Yong Liu,
- Abstract要約: フィールド・オブ・ビュー適応ストリーミングは没入型クラウドビデオの帯域幅を著しく削減する。
伝統的なアプローチは、しばしば軌跡に基づく6自由度(6DoF)のFoV予測に焦点を当てる。
細胞可視性の観点からPCV FoV予測問題を再構成する。
- 参考スコア(独自算出の注目度): 19.0599625095738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Field-of-View (FoV) adaptive streaming significantly reduces bandwidth requirement of immersive point cloud video (PCV) by only transmitting visible points in a viewer's FoV. The traditional approaches often focus on trajectory-based 6 degree-of-freedom (6DoF) FoV predictions. The predicted FoV is then used to calculate point visibility. Such approaches do not explicitly consider video content's impact on viewer attention, and the conversion from FoV to point visibility is often error-prone and time-consuming. We reformulate the PCV FoV prediction problem from the cell visibility perspective, allowing for precise decision-making regarding the transmission of 3D data at the cell level based on the predicted visibility distribution. We develop a novel spatial visibility and object-aware graph model that leverages the historical 3D visibility data and incorporates spatial perception, neighboring cell correlation, and occlusion information to predict the cell visibility in the future. Our model significantly improves the long-term cell visibility prediction, reducing the prediction MSE loss by up to 50% compared to the state-of-the-art models while maintaining real-time performance (more than 30fps) for point cloud videos with over 1 million points.
- Abstract(参考訳): フィールドオブビュー(FoV)適応ストリーミングは、視聴者のFoV内の可視点のみを伝送することによって、没入点クラウドビデオ(PCV)の帯域幅を著しく削減する。
伝統的なアプローチは、しばしば軌跡に基づく6自由度(6DoF)のFoV予測に焦点を当てている。
予測されたFoVは、ポイント可視性を計算するために使用される。
このようなアプローチは、ビデオコンテンツが視聴者の注意に与える影響を明示的に考慮しておらず、FoVからポイント可視性への変換は、しばしばエラーを起こし、時間を要する。
我々は,PCV FoV予測問題をセル可視性の観点から再構成し,予測された可視性分布に基づいて,セルレベルでの3次元データの伝送に関する正確な決定を可能にする。
本研究では,従来の3次元視界データを活用し,空間認識,隣接セル相関,閉塞情報などを取り入れた新しい空間視界とオブジェクト認識グラフモデルを構築し,将来的な細胞視界の予測を行う。
我々のモデルは長期セル可視性予測を大幅に改善し、100万点以上のポイントクラウドビデオのリアルタイムパフォーマンス(30fps以上)を維持しながら、最先端モデルと比較して、MSE損失の予測を最大50%削減する。
関連論文リスト
- AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - A Novel Deep Neural Network for Trajectory Prediction in Automated
Vehicles Using Velocity Vector Field [12.067838086415833]
本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念から生成された速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。
精度は、正確な軌道予測のための過去の観測の長い歴史の要求を緩和する観測窓の減少と一致している。
論文 参考訳(メタデータ) (2023-09-19T22:14:52Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback [16.716422953229088]
視野(FoV)予測は360度ビデオマルチキャストにおいて重要である。
本稿では,球面畳み込みを用いたFoV予測法を提案する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-01-29T08:32:19Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。