論文の概要: AlignCVC: Aligning Cross-View Consistency for Single-Image-to-3D Generation
- arxiv url: http://arxiv.org/abs/2506.23150v1
- Date: Sun, 29 Jun 2025 09:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.746749
- Title: AlignCVC: Aligning Cross-View Consistency for Single-Image-to-3D Generation
- Title(参考訳): AlignCVC: 単一画像から3D生成のためのクロスビュー一貫性の調整
- Authors: Xinyue Liang, Zhiyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang,
- Abstract要約: 事前学習された生成モデルによって合成された中間的多視点画像は、しばしばクロスビュー一貫性(CVC)を欠いている
本稿では,分散アライメントによる単一画像から3D生成を根本的に再構成する新しいフレームワークAlignCVCを紹介する。
- 参考スコア(独自算出の注目度): 13.131418906572163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-image-to-3D models typically follow a sequential generation and reconstruction workflow. However, intermediate multi-view images synthesized by pre-trained generation models often lack cross-view consistency (CVC), significantly degrading 3D reconstruction performance. While recent methods attempt to refine CVC by feeding reconstruction results back into the multi-view generator, these approaches struggle with noisy and unstable reconstruction outputs that limit effective CVC improvement. We introduce AlignCVC, a novel framework that fundamentally re-frames single-image-to-3D generation through distribution alignment rather than relying on strict regression losses. Our key insight is to align both generated and reconstructed multi-view distributions toward the ground-truth multi-view distribution, establishing a principled foundation for improved CVC. Observing that generated images exhibit weak CVC while reconstructed images display strong CVC due to explicit rendering, we propose a soft-hard alignment strategy with distinct objectives for generation and reconstruction models. This approach not only enhances generation quality but also dramatically accelerates inference to as few as 4 steps. As a plug-and-play paradigm, our method, namely AlignCVC, seamlessly integrates various multi-view generation models with 3D reconstruction models. Extensive experiments demonstrate the effectiveness and efficiency of AlignCVC for single-image-to-3D generation.
- Abstract(参考訳): シングルイメージから3Dモデルは通常、逐次生成と再構築のワークフローに従う。
しかし、事前学習した生成モデルによって合成された中間的多視点画像は、しばしばクロスビュー整合性(CVC)を欠き、3次元再構成性能が著しく低下する。
近年の手法では、再構成結果をマルチビュージェネレータにフィードバックすることでCVCを洗練させる手法が試みられているが、これらの手法は、有効なCVC改善を制限するノイズと不安定な再構築出力に苦慮している。
AlignCVCは、厳格な回帰損失に頼るのではなく、分散アライメントを通じて、単一画像から3D生成を根本的に再構成する新しいフレームワークである。
我々の重要な洞察は、生成されたマルチビュー分布と再構成されたマルチビュー分布の両方を、基盤となるマルチビュー分布に整合させることであり、CVCを改善するための基本的な基盤を確立することである。
生成した画像が弱いCVCを示すのに対して、再構成された画像は明示的なレンダリングにより強いCVCを示すのを観察し、生成および再構成モデルのための異なる目的を持つソフトハードアライメント戦略を提案する。
このアプローチは生成品質を向上するだけでなく、推論を4ステップまで劇的に加速させる。
プラグ・アンド・プレイのパラダイムであるAlignCVCは,様々なマルチビュー生成モデルと3次元再構成モデルをシームレスに統合する。
広汎な実験は、単一画像から3D生成におけるAlignCVCの有効性と効率を実証している。
関連論文リスト
- DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion [50.90541069907167]
閉塞型マルチビュー生成のためのエンドツーエンドフレームワークであるDeOcc-1-to-3を提案する。
私たちの自己教師型トレーニングパイプラインは、隠蔽されたイメージペアと擬似地上構造ビューを活用して、モデル構造を意識した補完とビュー整合性を教える。
論文 参考訳(メタデータ) (2025-06-26T17:58:26Z) - GenFusion: Closing the Loop between Reconstruction and Generation via Videos [24.195304481751602]
本稿では,再現性のあるRGB-Dレンダリングにおける映像フレームの条件付けを学習する再構成駆動型ビデオ拡散モデルを提案する。
また、生成モデルからトレーニングセットへの復元フレームを反復的に追加する循環核融合パイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-27T07:16:24Z) - Hunyuan3D 1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation [23.87609214530216]
Hunyuan3D 1.0はスピードと品質のバランスを保ちます。
我々のフレームワークは、Hunyuan-DiTというテキスト・ツー・イメージ・モデルで、テキスト・コンディショニングとイメージ・コンディショニングの両方をサポートする統一的なフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:21:42Z) - Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。
具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。
従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。
次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。
実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。