論文の概要: Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives
- arxiv url: http://arxiv.org/abs/2307.05473v2
- Date: Tue, 26 Dec 2023 18:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:20:08.801852
- Title: Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives
- Title(参考訳): 微分可能なブロックの世界:プリミティブのレンダリングによる質的3d分解
- Authors: Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu
Aubry
- Abstract要約: 本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
- 参考スコア(独自算出の注目度): 70.32817882783608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a set of calibrated images of a scene, we present an approach that
produces a simple, compact, and actionable 3D world representation by means of
3D primitives. While many approaches focus on recovering high-fidelity 3D
scenes, we focus on parsing a scene into mid-level 3D representations made of a
small set of textured primitives. Such representations are interpretable, easy
to manipulate and suited for physics-based simulations. Moreover, unlike
existing primitive decomposition methods that rely on 3D input data, our
approach operates directly on images through differentiable rendering.
Specifically, we model primitives as textured superquadric meshes and optimize
their parameters from scratch with an image rendering loss. We highlight the
importance of modeling transparency for each primitive, which is critical for
optimization and also enables handling varying numbers of primitives. We show
that the resulting textured primitives faithfully reconstruct the input images
and accurately model the visible 3D points, while providing amodal shape
completions of unseen object regions. We compare our approach to the state of
the art on diverse scenes from DTU, and demonstrate its robustness on real-life
captures from BlendedMVS and Nerfstudio. We also showcase how our results can
be used to effortlessly edit a scene or perform physical simulations. Code and
video results are available at https://www.tmonnier.com/DBW .
- Abstract(参考訳): シーンのキャリブレーションされた画像が与えられた場合、3Dプリミティブを用いてシンプルでコンパクトで動作可能な3D世界表現を生成するアプローチを提案する。
多くのアプローチは高忠実度3Dシーンの復元に重点を置いているが、我々はシーンを小さなテクスチャ化されたプリミティブからなる中級3D表現にパースすることに重点を置いている。
このような表現は解釈可能であり、操作が容易であり、物理ベースのシミュレーションに適している。
さらに,従来の3次元入力データに依存したプリミティブ分解法とは異なり,本手法は画像を直接操作する。
具体的には、プリミティブをテクスチャ化されたスーパークアッドリックメッシュとしてモデル化し、画像レンダリング損失でパラメータをスクラッチから最適化する。
我々は,各プリミティブに対する透明性のモデリングの重要性を強調し,最適化に欠かせないと同時に,プリミティブの数に応じた処理を可能にする。
その結果、テクスチャ化されたプリミティブは、入力画像を忠実に再構成し、視認可能な3dポイントを正確にモデル化し、被写体領域のアモーダル形状補完を提供する。
我々は,DTUの様々なシーンにおける芸術の状況と比較し,BlendedMVSとNerfstudioのリアルライフキャプチャの堅牢性を示す。
また、この結果を用いてシーンの編集や物理シミュレーションを行う方法についても紹介する。
コードとビデオの結果はhttps://www.tmonnier.com/dbwで入手できる。
関連論文リスト
- Bridging 3D Gaussian and Mesh for Freeview Video Rendering [57.21847030980905]
GauMeshはダイナミックシーンのモデリングとレンダリングのために3D GaussianとMeshをブリッジする。
提案手法は, 動的シーンの異なる部分を表現するために, プリミティブの適切なタイプに適応することを示す。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。