論文の概要: unPIC: A Geometric Multiview Prior for Image to 3D Synthesis
- arxiv url: http://arxiv.org/abs/2412.10273v2
- Date: Thu, 17 Apr 2025 08:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 20:12:06.194519
- Title: unPIC: A Geometric Multiview Prior for Image to 3D Synthesis
- Title(参考訳): unPIC:画像から3D合成に先立つ幾何学的マルチビュー
- Authors: Rishabh Kabra, Drew A. Hudson, Sjoerd van Steenkiste, Joao Carreira, Niloy J. Mitra,
- Abstract要約: 2次元画像からマルチビュー3次元への階層的確率的アプローチを導入する。
拡散 "プライア" は未知の3次元幾何学を予測し、拡散 "デコーダ" を条件に対象の新たなビューを生成する。
ポイントマップに基づく幾何表現を用いて、複数のターゲットビューの生成を同時に調整する。
- 参考スコア(独自算出の注目度): 37.52243979087041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a hierarchical probabilistic approach to go from a 2D image to multiview 3D: a diffusion "prior" predicts the unseen 3D geometry, which then conditions a diffusion "decoder" to generate novel views of the subject. We use a pointmap-based geometric representation to coordinate the generation of multiple target views simultaneously. We construct a predictable distribution of geometric features per target view to enable learnability across examples, and generalization to arbitrary inputs images. Our modular, geometry-driven approach to novel-view synthesis (called "unPIC") beats competing baselines such as CAT3D, EscherNet, Free3D, and One-2-3-45 on held-out objects from ObjaverseXL, as well as unseen real-world objects from Google Scanned Objects, Amazon Berkeley Objects, and the Digital Twin Catalog.
- Abstract(参考訳): 本稿では,2次元画像からマルチビュー3次元への階層的確率的アプローチを提案する。拡散"プライア"が未知の3次元幾何学を予測し,拡散"デコーダ"を条件として対象の新たなビューを生成する。
ポイントマップに基づく幾何表現を用いて、複数のターゲットビューの生成を同時に調整する。
ターゲットビュー毎の幾何学的特徴の予測可能な分布を構築し、サンプル間での学習可能性と任意の入力画像への一般化を実現する。
CAT3D、EscherNet、Free3D、One-2-3-45などの競合するベースラインを、ObjaverseXLの保持対象や、Google Scanned Objects、Amazon Berkeley Objects、Digital Twin Catalogの現実世界のオブジェクトに打ち勝つ。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Geometry-Free View Synthesis: Transformers and no 3D Priors [16.86600007830682]
トランスフォーマーモデルでは,手作業による3次元バイアスを伴わずに全く新しいビューを合成できることを示す。
i)ソースビューとターゲットビューの長距離3D対応を暗黙的に学習するグローバルアテンションメカニズムによって実現される。
論文 参考訳(メタデータ) (2021-04-15T17:58:05Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z) - 3D Object Detection and Pose Estimation of Unseen Objects in Color
Images with Local Surface Embeddings [35.769234123059086]
本研究では, 画像中のオブジェクトの3次元ポーズを, テクスチャのないCADモデルでのみ検出し, 推定する手法を提案する。
我々のアプローチはディープラーニングと3D幾何を組み合わせており、CADモデルと入力画像とを一致させるために、局所的な3D幾何の埋め込みに依存している。
我々は,Mask-RCNNをクラスに依存しない方法で,再学習せずに新しい物体を検出できることを示す。
論文 参考訳(メタデータ) (2020-10-08T15:57:06Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z) - 3D Shape Segmentation with Geometric Deep Learning [2.512827436728378]
本稿では,部分分割問題としてセグメント化全体を解くために,3次元形状の3次元拡張ビューを生成するニューラルネットワークベースのアプローチを提案する。
提案手法は,公開データセットの3次元形状と,フォトグラム法を用いて再構成した実物体を用いて検証する。
論文 参考訳(メタデータ) (2020-02-02T14:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。