論文の概要: View Transformation Robustness for Multi-View 3D Object Reconstruction with Reconstruction Error-Guided View Selection
- arxiv url: http://arxiv.org/abs/2412.11428v1
- Date: Mon, 16 Dec 2024 03:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:13.990613
- Title: View Transformation Robustness for Multi-View 3D Object Reconstruction with Reconstruction Error-Guided View Selection
- Title(参考訳): 再構成誤差誘導ビュー選択による多視点3次元オブジェクト再構成のためのビュー変換ロバスト性
- Authors: Qi Zhang, Zhouhang Luo, Tao Yu, Hui Huang,
- Abstract要約: ビュートランスフォーメーション・ロバストネス(VTR)は,深層学習に基づく多視点3次元オブジェクト再構成モデルにおいて重要である。
本稿では,3次元予測の空間分布を考慮した再構成誤り誘導ビュー選択法を提案する。
提案手法は、最先端の3D再構成法や、他のビュー変換ロバスト性比較法よりも優れている。
- 参考スコア(独自算出の注目度): 19.07686691657438
- License:
- Abstract: View transformation robustness (VTR) is critical for deep-learning-based multi-view 3D object reconstruction models, which indicates the methods' stability under inputs with various view transformations. However, existing research seldom focused on view transformation robustness in multi-view 3D object reconstruction. One direct way to improve the models' VTR is to produce data with more view transformations and add them to model training. Recent progress on large vision models, particularly Stable Diffusion models, has provided great potential for generating 3D models or synthesizing novel view images with only a single image input. Directly deploying these models at inference consumes heavy computation resources and their robustness to view transformations is not guaranteed either. To fully utilize the power of Stable Diffusion models without extra inference computation burdens, we propose to generate novel views with Stable Diffusion models for better view transformation robustness. Instead of synthesizing random views, we propose a reconstruction error-guided view selection method, which considers the reconstruction errors' spatial distribution of the 3D predictions and chooses the views that could cover the reconstruction errors as much as possible. The methods are trained and tested on sets with large view transformations to validate the 3D reconstruction models' robustness to view transformations. Extensive experiments demonstrate that the proposed method can outperform state-of-the-art 3D reconstruction methods and other view transformation robustness comparison methods.
- Abstract(参考訳): ビュー変換ロバストネス(VTR)は、様々なビュー変換を持つ入力下での手法の安定性を示す深層学習に基づく多次元オブジェクト再構成モデルにおいて重要である。
しかし、既存の研究は、多視点3次元オブジェクト再構成におけるビュー変換の堅牢性にはほとんど焦点を当てていない。
モデルのVTRを改善する直接的な方法の1つは、より多くのビュー変換を持つデータを生成し、それらをモデルトレーニングに追加することである。
大規模な視覚モデル、特に安定拡散モデルに関する最近の進歩は、単一の画像入力だけで3Dモデルを生成したり、新しいビューイメージを合成する大きな可能性をもたらした。
これらのモデルを推論で直接デプロイすることは、重い計算リソースを消費し、変換を見るための堅牢性も保証されない。
予測計算の余分な負担を伴わずに安定拡散モデルのパワーをフル活用するために,安定拡散モデルを用いた新しいビューを生成し,より優れたビュー変換ロバスト性を実現することを提案する。
ランダムなビューを合成する代わりに,3次元予測における再構成誤差の空間分布を考慮し,復元誤りをできるだけカバーできるビューを選択する再構成誤り誘導ビュー選択法を提案する。
これらの手法は,3次元再構成モデルの立体視変換に対するロバスト性を検証するために,大きな視点変換を持つ集合上で訓練および試験を行う。
広汎な実験により,提案手法は最先端の3次元再構成法および他のビュー変換ロバスト性比較法より優れていることが示された。
関連論文リスト
- Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction [14.89364490991374]
本稿では,多視点特徴を符号化し,欠陥のある3Dオブジェクトを修正するための3次元粗大変換器(3D-C2FT)を提案する。
C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。
実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-05-29T06:01:42Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。