論文の概要: CUBE360: Learning Cubic Field Representation for Monocular 360 Depth Estimation for Virtual Reality
- arxiv url: http://arxiv.org/abs/2410.05735v1
- Date: Tue, 8 Oct 2024 06:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 13:09:48.807311
- Title: CUBE360: Learning Cubic Field Representation for Monocular 360 Depth Estimation for Virtual Reality
- Title(参考訳): CUBE360:バーチャルリアリティのための単眼360度推定のための立方体場表現学習
- Authors: Wenjie Chang, Hao Ai, Tianzhu Zhang, Lin Wang,
- Abstract要約: CUBE360は、1つのパノラマ画像から複数のMPIからなる立方体場を学習し、任意の視野方向の深さ推定を行う。
合成と実世界の両方のデータセットの実験は、従来のSSL方式と比較してCUBE360の優れた性能を示している。
- 参考スコア(独自算出の注目度): 32.023283261191104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic images provide comprehensive scene information and are suitable for VR applications. Obtaining corresponding depth maps is essential for achieving immersive and interactive experiences. However, panoramic depth estimation presents significant challenges due to the severe distortion caused by equirectangular projection (ERP) and the limited availability of panoramic RGB-D datasets. Inspired by the recent success of neural rendering, we propose a novel method, named $\mathbf{CUBE360}$, that learns a cubic field composed of multiple MPIs from a single panoramic image for $\mathbf{continuous}$ depth estimation at any view direction. Our CUBE360 employs cubemap projection to transform an ERP image into six faces and extract the MPIs for each, thereby reducing the memory consumption required for MPI processing of high-resolution data. Additionally, this approach avoids the computational complexity of handling the uneven pixel distribution inherent to equirectangular projectio. An attention-based blending module is then employed to learn correlations among the MPIs of cubic faces, constructing a cubic field representation with color and density information at various depth levels. Furthermore, a novel sampling strategy is introduced for rendering novel views from the cubic field at both cubic and planar scales. The entire pipeline is trained using photometric loss calculated from rendered views within a self-supervised learning approach, enabling training on 360 videos without depth annotations. Experiments on both synthetic and real-world datasets demonstrate the superior performance of CUBE360 compared to prior SSL methods. We also highlight its effectiveness in downstream applications, such as VR roaming and visual effects, underscoring CUBE360's potential to enhance immersive experiences.
- Abstract(参考訳): パノラマ画像は総合的なシーン情報を提供し、VRアプリケーションに適している。
没入的かつ対話的な体験を達成するためには,対応する深度マップの取得が不可欠である。
しかしながら、パノラマ深さ推定は、等方射影(ERP)による激しい歪みと、パノラマRGB-Dデータセットの可用性の制限により、重大な課題を呈している。
ニューラルレンダリングの最近の成功に触発された新しい手法である $\mathbf{CUBE360}$ は、単一のパノラマ画像から複数のMPIからなる立方体場を学習し、任意の視点で深度推定を行う。
我々のCUBE360は立方体投影を用いて、ERP画像を6つの面に変換し、それぞれにMPIを抽出することで、高解像度データのMPI処理に必要なメモリ消費を減らす。
さらに、このアプローチは、等角射影に固有の不均一な画素分布を扱うという計算複雑性を回避している。
次に、注意に基づくブレンディングモジュールを用いて、立方体面のMPI間の相関関係を学習し、様々な深さレベルで色と密度情報を持つ立方体場表現を構築する。
さらに、立方体と平面の両方で立方体からの新規なビューをレンダリングするための新しいサンプリング戦略を導入した。
パイプライン全体は、自己教師付き学習アプローチ内でレンダリングされたビューから算出した測光損失を使用してトレーニングされる。
合成と実世界の両方のデータセットの実験は、従来のSSL方式と比較してCUBE360の優れた性能を示している。
また,VRローミングや視覚効果などの下流アプリケーションにおいて,CUBE360の没入感を高める可能性を強調した。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MV2Cyl: Reconstructing 3D Extrusion Cylinders from Multi-View Images [13.255044855902408]
2次元多視点画像から3次元を再構成する新しい手法であるMV2Cylを提案する。
本研究では,2次元スケッチと抽出パラメータ推定において最適な精度で最適な再構成結果を得る。
論文 参考訳(メタデータ) (2024-06-16T08:54:38Z) - N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。
N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。
本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文 参考訳(メタデータ) (2024-05-25T13:54:34Z) - MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field [1.3162012586770577]
深層学習全方位深度推定と新しいビュー合成を組み合わせたMSI-NeRFを提案する。
入力画像の特徴抽出とワープにより,コストボリュームとして多面体画像を構築する。
ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。
論文 参考訳(メタデータ) (2024-03-16T07:26:50Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。