論文の概要: sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views
- arxiv url: http://arxiv.org/abs/2502.04318v1
- Date: Thu, 06 Feb 2025 18:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:25.914116
- Title: sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views
- Title(参考訳): sshELF:スパークビューからの3次元再構成のための潜時特徴の単一ショット階層的外挿
- Authors: Eyvaz Najafli, Marius Kästingschäfer, Sebastian Bernhard, Thomas Brox, Andreas Geiger,
- Abstract要約: 外向きのビューから屋外のシーンを再構築することは、ビューの重複を最小限に抑えるため、大きな課題となる。
階層外挿による非有界3次元シーン再構成のための高速単発パイプラインを提案する。
latentELFは、隠された領域を忠実に再構築し、リアルタイムレンダリングをサポートし、下流アプリケーションにリッチな機能を提供する。
- 参考スコア(独自算出の注目度): 41.73382885439258
- License:
- Abstract: Reconstructing unbounded outdoor scenes from sparse outward-facing views poses significant challenges due to minimal view overlap. Previous methods often lack cross-scene understanding and their primitive-centric formulations overload local features to compensate for missing global context, resulting in blurriness in unseen parts of the scene. We propose sshELF, a fast, single-shot pipeline for sparse-view 3D scene reconstruction via hierarchal extrapolation of latent features. Our key insights is that disentangling information extrapolation from primitive decoding allows efficient transfer of structural patterns across training scenes. Our method: (1) learns cross-scene priors to generate intermediate virtual views to extrapolate to unobserved regions, (2) offers a two-stage network design separating virtual view generation from 3D primitive decoding for efficient training and modular model design, and (3) integrates a pre-trained foundation model for joint inference of latent features and texture, improving scene understanding and generalization. sshELF can reconstruct 360 degree scenes from six sparse input views and achieves competitive results on synthetic and real-world datasets. We find that sshELF faithfully reconstructs occluded regions, supports real-time rendering, and provides rich latent features for downstream applications. The code will be released.
- Abstract(参考訳): 狭い外向きの眺めから、境界のない屋外のシーンを再構築することは、視界の重複を最小限に抑えるため、大きな課題となる。
それまでの手法では、クロスシーンの理解が欠如しており、その原始中心の定式化は、グローバルな文脈の欠如を補うために局所的な特徴を過大に負荷し、シーンの見えざる部分の曖昧さをもたらす。
本稿では,スパルスビュー3次元シーン再構成のための高速かつ単発的なパイプラインであるsshELFを提案する。
我々の重要な洞察は、プリミティブな復号化から情報を外挿しないようにすることで、トレーニングシーン間で効率的に構造パターンを転送できるということです。
提案手法は,(1)未観測領域を外挿するための中間的な仮想ビューを生成するためのシーン間事前学習,(2)効率的なトレーニングとモジュラーモデル設計のための3次元プリミティブデコーディングから仮想ビュー生成を分離する2段階ネットワーク設計,(3)潜時特徴とテクスチャの同時推論のための事前学習基盤モデルの統合,およびシーン理解と一般化の促進を実現する。
sshELFは6つのスパースな入力ビューから360度シーンを再構築でき、合成および実世界のデータセットの競合的な結果が得られる。
sshELFは、隠された領域を忠実に再構築し、リアルタイムレンダリングをサポートし、下流アプリケーションにリッチな潜伏機能を提供します。
コードはリリースされます。
関連論文リスト
- EPRecon: An Efficient Framework for Real-Time Panoptic 3D Reconstruction from Monocular Video [6.236130301507863]
EPReconは,効率的なリアルタイムパノプティカル3D再構成フレームワークである。
本稿では,3次元ボリュームのシーン深度を直接推定する軽量モジュールを提案する。
さらに、占有されたボクセルからよりリッチなパノプティクス特徴を推測するために、EPReconはボクセル特徴と対応する画像特徴の両方からパノプティクス特徴を抽出する。
論文 参考訳(メタデータ) (2024-09-03T11:40:31Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。