Fugu-MT 論文翻訳(概要): 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D

論文の概要: 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D

arxiv url: http://arxiv.org/abs/2401.15841v1
Date: Mon, 29 Jan 2024 02:30:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 16:13:33.722691
Title: 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D
Title（参考訳）: 2L3:不完全な2D画像を正確な3Dにリフティング
Authors: Yizheng Chen, Rengan Xie, Qi Ye, Sen Yang, Zixuan Xie, Tianxiao Chen, Rong Li and Yuchi Huo
Abstract要約: マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
参考スコア（独自算出の注目度）: 16.66666619143761
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reconstructing 3D objects from a single image is an intriguing but challenging problem. One promising solution is to utilize multi-view (MV) 3D reconstruction to fuse generated MV images into consistent 3D objects. However, the generated images usually suffer from inconsistent lighting, misaligned geometry, and sparse views, leading to poor reconstruction quality. To cope with these problems, we present a novel 3D reconstruction framework that leverages intrinsic decomposition guidance, transient-mono prior guidance, and view augmentation to cope with the three issues, respectively. Specifically, we first leverage to decouple the shading information from the generated images to reduce the impact of inconsistent lighting; then, we introduce mono prior with view-dependent transient encoding to enhance the reconstructed normal; and finally, we design a view augmentation fusion strategy that minimizes pixel-level loss in generated sparse views and semantic loss in augmented random views, resulting in view-consistent geometry and detailed textures. Our approach, therefore, enables the integration of a pre-trained MV image generator and a neural network-based volumetric signed distance function (SDF) representation for a single image to 3D object reconstruction. We evaluate our framework on various datasets and demonstrate its superior performance in both quantitative and qualitative assessments, signifying a significant advancement in 3D object reconstruction. Compared with the latest state-of-the-art method Syncdreamer~\cite{liu2023syncdreamer}, we reduce the Chamfer Distance error by about 36\% and improve PSNR by about 30\% .
Abstract（参考訳）: 単一の画像から3Dオブジェクトを再構築するのは興味深いが難しい問題だ。 1つの有望な解決策は、マルチビュー(MV)3D再構成を利用して、生成されたMV画像を一貫した3Dオブジェクトに融合させることである。しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。これらの問題に対処するため,本論文では,内在分解指導,過渡モノ事前指導,ビュー増補を活用した新しい3次元再構築フレームワークを提案する。具体的には、まず、生成された画像からシェーディング情報を分離して、一貫性のない照明の影響を低減し、次に、再構成された正規化を強化するために、ビュー依存の過渡エンコーディングでmonoを先取りし、最後に、生成されたスパースビューにおけるピクセルレベルの損失と拡張ランダムビューにおける意味的損失を最小限に抑えるビュー拡張融合戦略をデザインし、ビュー一貫性の幾何および詳細なテクスチャを作成する。そこで,本手法では,事前訓練したMV画像生成装置とニューラルネットワークによる1つの画像の3次元オブジェクト再構成のためのボリューム署名距離関数(SDF)表現を統合できる。各種データセットの枠組みを評価し,定量評価と定性評価の両方において優れた性能を示し,3次元オブジェクト再構成の大幅な進歩を示す。最新の最先端手法 Syncdreamer~\cite{liu2023syncdreamer} と比較して,Chamfer Distance 誤差を約36 %削減し,PSNR を約30 %改善する。

関連論文リスト

DiMeR: Disentangled Mesh Reconstruction Model [24.07380724530745]
スパース・ビュー・メッシュ再構成のための新しい2ストリームフィードフォワードモデルであるDiMeRを導入する。我々は,スパースビュー再構成,シングルイメージ・トゥ・3D,テキスト・トゥ・3Dなど,様々なタスクにまたがるロバストな機能を示す。
論文参考訳（メタデータ） (2025-04-24T15:39:20Z)
HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文参考訳（メタデータ） (2025-03-27T09:45:09Z)
CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。計算複雑性を低減できる多層メモリ機構でモデルを拡張します。このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文参考訳（メタデータ） (2025-03-03T15:36:07Z)
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文参考訳（メタデータ） (2024-06-09T05:19:24Z)
LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文参考訳（メタデータ） (2024-05-24T15:09:12Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes [20.871847154995688]
FlexiDreamerは、マルチビュー生成イメージから高品質なメッシュを直接再構築する新しいフレームワークである。提案手法では,1つの画像から3次元の下流タスクにおいて,約1分で高忠実度3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-04-01T08:20:18Z)
InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文参考訳（メタデータ） (2023-12-03T18:59:15Z)
One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization [30.951405623906258]
単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
論文参考訳（メタデータ） (2023-06-29T13:28:16Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文参考訳（メタデータ） (2022-08-04T14:13:35Z)
2D GANs Meet Unsupervised Single-view 3D Reconstruction [21.93671761497348]
事前訓練されたGANに基づく制御可能な画像生成は、幅広いコンピュータビジョンタスクに役立てることができる。本稿では,GAN生成した多視点画像から2次元の監視を活用できる新しい画像条件のニューラル暗黙界を提案する。提案手法の有効性は,ジェネリックオブジェクトのより優れた1次元3次元再構成結果によって示される。
論文参考訳（メタデータ） (2022-07-20T20:24:07Z)
Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving Objects [115.71874459429381]
本研究では, 物体の3次元形状, テクスチャ, 動きを単一動画像から共同で再構成する新しい課題について述べる。従来の手法では2次元画像領域でのみ遅延問題に対処するが、3次元領域における全ての物体特性の厳密なモデリングは任意の物体の動きの正確な記述を可能にする。
論文参考訳（メタデータ） (2021-06-16T13:18:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。