論文の概要: Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2403.11131v2
- Date: Thu, 18 Jul 2024 12:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:11:56.711418
- Title: Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields
- Title(参考訳): Omni-Recon: 汎用神経放射場のための高調波画像ベースレンダリング
- Authors: Yonggan Fu, Huaizhi Qu, Zhifan Ye, Chaojian Li, Kevin Zhao, Yingyan Lin,
- Abstract要約: Omni-Reconと呼ばれるフレームワークは、(1)一般化可能な3D再構成とゼロショットマルチタスクシーン理解、(2)リアルタイムレンダリングやシーン編集といった様々な下流3Dアプリケーションへの適応性を実現する。
具体的には、Omni-Reconは2つの分離枝を持つ画像ベースレンダリングを用いた汎用NeRFモデルを備えている。
この設計は、ゼロショットマルチタスクシーン理解のために、様々なタスクで再利用可能なブレンディングウェイトを用いて、最先端(SOTA)の一般化可能な3次元表面再構成品質を実現する。
- 参考スコア(独自算出の注目度): 29.573344213110172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in Neural Radiance Fields (NeRFs) have sparked significant demand for their integration into real-world 3D applications. However, the varied functionalities required by different 3D applications often necessitate diverse NeRF models with various pipelines, leading to tedious NeRF training for each target task and cumbersome trial-and-error experiments. Drawing inspiration from the generalization capability and adaptability of emerging foundation models, our work aims to develop one general-purpose NeRF for handling diverse 3D tasks. We achieve this by proposing a framework called Omni-Recon, which is capable of (1) generalizable 3D reconstruction and zero-shot multitask scene understanding, and (2) adaptability to diverse downstream 3D applications such as real-time rendering and scene editing. Our key insight is that an image-based rendering pipeline, with accurate geometry and appearance estimation, can lift 2D image features into their 3D counterparts, thus extending widely explored 2D tasks to the 3D world in a generalizable manner. Specifically, our Omni-Recon features a general-purpose NeRF model using image-based rendering with two decoupled branches: one complex transformer-based branch that progressively fuses geometry and appearance features for accurate geometry estimation, and one lightweight branch for predicting blending weights of source views. This design achieves state-of-the-art (SOTA) generalizable 3D surface reconstruction quality with blending weights reusable across diverse tasks for zero-shot multitask scene understanding. In addition, it can enable real-time rendering after baking the complex geometry branch into meshes, swift adaptation to achieve SOTA generalizable 3D understanding performance, and seamless integration with 2D diffusion models for text-guided 3D editing.
- Abstract(参考訳): 最近のNeural Radiance Fields(NeRF)のブレークスルーは、現実世界の3Dアプリケーションへの統合に対する大きな需要を引き起こしている。
しかし、異なる3Dアプリケーションで要求される様々な機能はしばしば様々なパイプラインで様々なNeRFモデルを必要とするため、それぞれのタスクに対する面倒なNeRFトレーニングや、面倒な試行錯誤実験に繋がる。
本研究は,新たな基礎モデルの一般化能力と適応性からインスピレーションを得て,多種多様な3次元タスクを扱うための1つの汎用NeRFを開発することを目的とする。
我々は,(1)一般化可能な3D再構成とゼロショットマルチタスクシーン理解が可能なOmni-Reconというフレームワークを提案し,(2)リアルタイムレンダリングやシーン編集などの下流3Dアプリケーションへの適応性を実現する。
我々の重要な洞察は、画像ベースのレンダリングパイプラインが、正確な幾何学的および外観的推定によって、2D画像の特徴を3D空間に持ち上げ、広範に検討された2Dタスクを一般化可能な方法で3D世界へと拡張できるということである。
具体的には、Omni-Reconは、2つの分離された枝を持つ画像ベースレンダリングを用いた汎用のNeRFモデルを特徴付けている: 幾何推定のために幾何と外観特徴を段階的に融合する複雑なトランスフォーマーベースの分岐と、ソースビューのブレンド重量を予測する軽量ブランチである。
この設計は、ゼロショットマルチタスクシーン理解のために、様々なタスクで再利用可能なブレンディングウェイトを用いて、最先端(SOTA)の一般化可能な3次元表面再構成品質を実現する。
さらに、複雑なジオメトリブランチをメッシュに焼き込み、SOTAの一般化可能な3D理解性能を実現するための迅速な適応、テキスト誘導3D編集のための2D拡散モデルとのシームレスな統合など、リアルタイムなレンダリングを可能にする。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models [21.523836478458524]
一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
論文 参考訳(メタデータ) (2023-03-22T17:57:01Z) - Structured 3D Features for Reconstructing Controllable Avatars [43.36074729431982]
パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。
本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
論文 参考訳(メタデータ) (2022-12-13T18:57:33Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z) - StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image
Synthesis [92.25145204543904]
StyleNeRFは高解像度画像合成のための3次元認識型生成モデルである。
ニューラル放射場(NeRF)をスタイルベースジェネレータに統合する。
高品質な3D一貫性を維持しながら、対話的な速度で高解像度画像を合成することができる。
論文 参考訳(メタデータ) (2021-10-18T02:37:01Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。