論文の概要: DPA-Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly
- arxiv url: http://arxiv.org/abs/2404.00875v2
- Date: Tue, 2 Apr 2024 05:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:36:01.003793
- Title: DPA-Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly
- Title(参考訳): DPA-Net:微分プリミティブアセンブリによるスパースビューからの構造化3次元抽象化
- Authors: Fenggen Yu, Yiming Qian, Xu Zhang, Francisca Gil-Ureta, Brian Jackson, Eric Bennett, Hao Zhang,
- Abstract要約: スパースRGB画像から構造化された3D抽象化を学習するための、微分可能なレンダリングフレームワークを提案する。
異なるボリュームレンダリングを活用することで,本手法は3次元監視を必要としない。
本手法は,スパースビューからの3次元プリミティブ抽象に対する最先端の代替手段よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 18.655229356566785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a differentiable rendering framework to learn structured 3D abstractions in the form of primitive assemblies from sparse RGB images capturing a 3D object. By leveraging differentiable volume rendering, our method does not require 3D supervision. Architecturally, our network follows the general pipeline of an image-conditioned neural radiance field (NeRF) exemplified by pixelNeRF for color prediction. As our core contribution, we introduce differential primitive assembly (DPA) into NeRF to output a 3D occupancy field in place of density prediction, where the predicted occupancies serve as opacity values for volume rendering. Our network, coined DPA-Net, produces a union of convexes, each as an intersection of convex quadric primitives, to approximate the target 3D object, subject to an abstraction loss and a masking loss, both defined in the image space upon volume rendering. With test-time adaptation and additional sampling and loss designs aimed at improving the accuracy and compactness of the obtained assemblies, our method demonstrates superior performance over state-of-the-art alternatives for 3D primitive abstraction from sparse views.
- Abstract(参考訳): 本稿では、3DオブジェクトをキャプチャするスパースRGB画像から、プリミティブアセンブリの形で構造化された3D抽象化を学習するための微分可能なレンダリングフレームワークを提案する。
異なるボリュームレンダリングを活用することで,本手法は3次元監視を必要としない。
アーキテクチャ上,我々のネットワークは,色予測のためにピクセルNeRFで実証された画像条件のニューラル放射場(NeRF)の一般的なパイプラインに従っている。
本研究のコアコントリビューションとして,NeRFに差分プリミティブアセンブリ(DPA)を導入し,密度予測の代わりに3次元占有場を出力する。
我々のネットワークはDPA-Netと呼ばれ、それぞれ凸二次プリミティブの交点として凸の結合を生成し、ターゲットの3Dオブジェクトを近似し、抽象的な損失とマスキングの損失を受け、どちらもボリュームレンダリング時に画像空間で定義される。
テスト時間適応と,得られたアセンブリの精度とコンパクト性向上を目的としたサンプリング・ロス設計により,スパースビューからの3次元プリミティブ抽象化に対する最先端の代替手段よりも優れた性能を示す。
関連論文リスト
- 3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection [12.14595005884025]
本稿では,3DGSを初めて3DODに導入し,主な課題を2つ挙げる。
2次元境界ガイダンスを組み込んだエレガントで効率的なソリューションを提案する。
また,3次元空間におけるオブジェクトの確率分布を生成するために2次元ボックスを用いたBox-Focused Smpling戦略を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:15:52Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Learning Neural Radiance Fields from Multi-View Geometry [1.1011268090482573]
画像に基づく3次元再構成のために,多視点幾何アルゴリズムとニューラルレージアンス場(NeRF)を組み合わせたMVG-NeRF(MVG-NeRF)というフレームワークを提案する。
NeRFは暗黙の3D表現の分野に革命をもたらした。
論文 参考訳(メタデータ) (2022-10-24T08:53:35Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。