論文の概要: Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object
- arxiv url: http://arxiv.org/abs/2505.23054v1
- Date: Thu, 29 May 2025 03:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.66292
- Title: Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object
- Title(参考訳): Zero-P-to-3:Zero-Shot Part-View Image to 3D Object
- Authors: Yuxuan Lin, Ruihang Chu, Zhenyu Chen, Xiao Tang, Lei Ke, Haoling Li, Yingji Zhong, Zhihao Li, Shiyong Liu, Xiaofei Wu, Jianzhuang Liu, Yujiu Yang,
- Abstract要約: そこで本研究では,局所的な高密度観測と複数ソースの事前情報を統合した学習自由手法を提案する。
本手法では, DDIMサンプリングにおいて, これらの先行情報を効果的に整合させる融合方式を導入し, 多視点一貫した画像を生成し, 見えない視界を監督する。
- 参考スコア(独自算出の注目度): 55.93553895520324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative 3D reconstruction shows strong potential in incomplete observations. While sparse-view and single-image reconstruction are well-researched, partial observation remains underexplored. In this context, dense views are accessible only from a specific angular range, with other perspectives remaining inaccessible. This task presents two main challenges: (i) limited View Range: observations confined to a narrow angular scope prevent effective traditional interpolation techniques that require evenly distributed perspectives. (ii) inconsistent Generation: views created for invisible regions often lack coherence with both visible regions and each other, compromising reconstruction consistency. To address these challenges, we propose \method, a novel training-free approach that integrates the local dense observations and multi-source priors for reconstruction. Our method introduces a fusion-based strategy to effectively align these priors in DDIM sampling, thereby generating multi-view consistent images to supervise invisible views. We further design an iterative refinement strategy, which uses the geometric structures of the object to enhance reconstruction quality. Extensive experiments on multiple datasets show the superiority of our method over SOTAs, especially in invisible regions.
- Abstract(参考訳): 生成的3次元再構成は、不完全な観察に強い可能性を示す。
スパースビューとシングルイメージの再構成はよく研究されているが、部分的な観察は未発見のままである。
この文脈では、密なビューは特定の角の範囲からのみアクセス可能であり、他の視点はアクセス不能である。
この課題には2つの課題がある。
(i)限られた視野範囲:狭角範囲に限定された観測により、均等に分布する視点を必要とする効果的な従来の補間技術が妨げられる。
(II)不整合生成:目に見えない領域で作成されたビューは、可視領域と相互の整合性を欠くことが多く、復元の整合性を損なう。
これらの課題に対処するために,局所的な高密度観測と複数ソースの事前情報を統合する,新しいトレーニング不要のアプローチである‘method’を提案する。
本手法では, DDIMサンプリングにおいて, これらの先行情報を効果的に整合させる融合方式を導入し, 多視点一貫した画像を生成し, 見えない視界を監督する。
さらに、オブジェクトの幾何学的構造を用いて再構成品質を向上させる反復的洗練戦略を設計する。
複数のデータセットに対する大規模な実験は、特に見えない地域では、SOTAよりも私たちの方法の方が優れていることを示している。
関連論文リスト
- Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - Mono3R: Exploiting Monocular Cues for Geometric 3D Reconstruction [11.220655907305515]
多視点再構成フレームワークにモノクラー幾何の先行を組み込んだモノクラー誘導リファインメントモジュールを導入する。
本手法は,マルチビューカメラのポーズ推定と点雲の精度の両面で大幅に向上する。
論文 参考訳(メタデータ) (2025-04-18T02:33:12Z) - Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文 参考訳(メタデータ) (2025-02-25T14:04:22Z) - CrossView-GS: Cross-view Gaussian Splatting For Large-scale Scene Reconstruction [5.528874948395173]
マルチブランチ構築と融合に基づく大規模シーン再構築のための新しいクロスビューガウス分割法を提案する。
本手法は,最先端の手法と比較して,新規なビュー合成における優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-03T08:24:59Z) - Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。
既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。
衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:22:39Z) - StreetSurf: Extending Multi-view Implicit Surface Reconstruction to
Street Views [6.35910814268525]
我々はStreetSurfと呼ばれる新しい多視点暗黙的表面再構成手法を提案する。
これは、LiDARデータを必要とせずに、広く使われている自動運転データセットのストリートビューイメージに容易に適用できる。
トレーニング時間1~2時間以内の幾何学的, 外観的, 芸術的復元の質を達成できた。
論文 参考訳(メタデータ) (2023-06-08T07:19:27Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - 2D GANs Meet Unsupervised Single-view 3D Reconstruction [21.93671761497348]
事前訓練されたGANに基づく制御可能な画像生成は、幅広いコンピュータビジョンタスクに役立てることができる。
本稿では,GAN生成した多視点画像から2次元の監視を活用できる新しい画像条件のニューラル暗黙界を提案する。
提案手法の有効性は,ジェネリックオブジェクトのより優れた1次元3次元再構成結果によって示される。
論文 参考訳(メタデータ) (2022-07-20T20:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。