論文の概要: Viewport Prediction for Volumetric Video Streaming by Exploring Video
Saliency and Trajectory Information
- arxiv url: http://arxiv.org/abs/2311.16462v1
- Date: Tue, 28 Nov 2023 03:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:24:35.857504
- Title: Viewport Prediction for Volumetric Video Streaming by Exploring Video
Saliency and Trajectory Information
- Title(参考訳): ビデオサリエンシーと軌道情報の探索によるボリュームビデオストリーミングのビューポート予測
- Authors: Jie Li, Zhixin Li, Zhi Liu, Pengyuan Zhou, Richang Hong, Qiyue Li, Han
Hu
- Abstract要約: 本稿では,Saliency and Trajectory Viewport Prediction (STVP) という新しいアプローチを提案し,提案する。
ボリュームビデオストリーミングにおけるビューポート予測の精度の向上を目的としている。
特に,計算複雑性を低減するために,新しいサンプリング手法であるUniform Random Smpling (URS)を導入する。
- 参考スコア(独自算出の注目度): 47.58418762780673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Volumetric video, also known as hologram video, is a novel medium that
portrays natural content in Virtual Reality (VR), Augmented Reality (AR), and
Mixed Reality (MR). It is expected to be the next-gen video technology and a
prevalent use case for 5G and beyond wireless communication. Considering that
each user typically only watches a section of the volumetric video, known as
the viewport, it is essential to have precise viewport prediction for optimal
performance. However, research on this topic is still in its infancy. In the
end, this paper presents and proposes a novel approach, named Saliency and
Trajectory Viewport Prediction (STVP), which aims to improve the precision of
viewport prediction in volumetric video streaming. The STVP extensively
utilizes video saliency information and viewport trajectory. To our knowledge,
this is the first comprehensive study of viewport prediction in volumetric
video streaming. In particular, we introduce a novel sampling method, Uniform
Random Sampling (URS), to reduce computational complexity while still
preserving video features in an efficient manner. Then we present a saliency
detection technique that incorporates both spatial and temporal information for
detecting static, dynamic geometric, and color salient regions. Finally, we
intelligently fuse saliency and trajectory information to achieve more accurate
viewport prediction. We conduct extensive simulations to evaluate the
effectiveness of our proposed viewport prediction methods using
state-of-the-art volumetric video sequences. The experimental results show the
superiority of the proposed method over existing schemes. The dataset and
source code will be publicly accessible after acceptance.
- Abstract(参考訳): ボリュームビデオ(英: volumetric video)またはホログラムビデオ(英: hologram video)は、仮想現実(vr)、拡張現実(ar)、混合現実(mr)の自然コンテンツを描写する新しい媒体である。
次世代のビデオ技術であり、5Gや無線通信以上の用途が想定されている。
各ユーザが通常、ビューポートと呼ばれるボリュームビデオのセクションのみを視聴するので、最適なパフォーマンスのために正確なビューポート予測を行うことが不可欠である。
しかし、この話題の研究はまだ初期段階にある。
最後に,ボリュームビデオストリーミングにおけるビューポート予測の精度向上を目的とした,Saliency and Trajectory Viewport Prediction (STVP) という新しい手法を提案し,提案する。
STVPはビデオサリエンシ情報とビューポート軌跡を広範囲に活用する。
私たちの知る限り、これはボリュームビデオストリーミングにおけるviewport予測に関する最初の包括的な研究である。
特に,一様ランダムサンプリング(URS)という新しいサンプリング手法を導入し,ビデオの特徴を効率的に保存しながら,計算複雑性を低減した。
次に,静的,動的幾何学的,カラーサルエント領域を検出するために,空間情報と時間情報の両方を組み込んだサルエンシー検出手法を提案する。
最後に、我々はより正確なビューポート予測を実現するために、精度と軌道情報をインテリジェントに融合する。
我々は,最先端のボリュームビデオシーケンスを用いたビューポート予測手法の有効性を評価するために,広範囲なシミュレーションを行った。
実験の結果,提案手法が既存手法よりも優れていることがわかった。
データセットとソースコードは、受理後に公開アクセスされる。
関連論文リスト
- VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。
提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。
実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T06:39:52Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video
Prediction [33.25800277291283]
本研究では,過去のデータストリーム上での映像生成に関わる時間的映像予測の課題について検討する。
高品質な予測を生成するために,時空間ネットワーク(PastNet)と呼ばれる新しい手法を導入する。
複素時間信号の処理中に局所的な特徴を識別するために,固有次元の推定値を持つメモリバンクを用いる。
論文 参考訳(メタデータ) (2023-05-19T04:16:50Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Evaluating Foveated Video Quality Using Entropic Differencing [1.5877673959068452]
本稿では,帯域通過応答の自然なシーン統計を用いた画像品質評価アルゴリズムを提案する。
提案アルゴリズムは,FEDが人的判断に対して行う予測の相関性を測定して評価する。
提案アルゴリズムの性能は,既存の全参照アルゴリズムと比較して最先端である。
論文 参考訳(メタデータ) (2021-06-12T16:29:13Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z) - DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion [67.64047158294062]
提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:54:03Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。