Fugu-MT 論文翻訳(概要): Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis

論文の概要: Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis

arxiv url: http://arxiv.org/abs/2204.06307v1
Date: Wed, 13 Apr 2022 11:23:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-14 13:21:29.471627
Title: Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis
Title（参考訳）: 3次元認識画像合成のための多視点整合生成型逆ネットワーク
Authors: Xuanmeng Zhang, Zhedong Zheng, Daiheng Gao, Bang Zhang, Pan Pan, Yi Yang
Abstract要約: 3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
参考スコア（独自算出の注目度）: 48.33860286920389
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D-aware image synthesis aims to generate images of objects from multiple views by learning a 3D representation. However, one key challenge remains: existing approaches lack geometry constraints, hence usually fail to generate multi-view consistent images. To address this challenge, we propose Multi-View Consistent Generative Adversarial Networks (MVCGAN) for high-quality 3D-aware image synthesis with geometry constraints. By leveraging the underlying 3D geometry information of generated images, i.e., depth and camera transformation matrix, we explicitly establish stereo correspondence between views to perform multi-view joint optimization. In particular, we enforce the photometric consistency between pairs of views and integrate a stereo mixup mechanism into the training process, encouraging the model to reason about the correct 3D shape. Besides, we design a two-stage training strategy with feature-level multi-view joint optimization to improve the image quality. Extensive experiments on three datasets demonstrate that MVCGAN achieves the state-of-the-art performance for 3D-aware image synthesis.
Abstract（参考訳）: 3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。そこで本研究では,高画質3d認識画像合成のための多視点整合生成逆ネットワーク (mvcgan) を提案する。生成画像の基底となる3次元形状情報,すなわち深度およびカメラ変換行列を活用することにより,ビュー間のステレオ対応を明確化し,マルチビュー共同最適化を行う。特に、対のビュー間の測光一貫性を強制し、ステレオミックスアップ機構をトレーニングプロセスに統合し、モデルに正しい3d形状を判断するよう促す。さらに,画像品質を改善するために,特徴レベル多視点共同最適化を用いた2段階トレーニング戦略を設計する。 3つのデータセットに対する大規模な実験により、MVGANは3D認識画像合成の最先端性能を達成することが示された。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文参考訳（メタデータ） (2025-01-12T04:44:44Z)
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。 Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文参考訳（メタデータ） (2024-09-11T17:58:57Z)
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文参考訳（メタデータ） (2024-05-30T17:59:54Z)
G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文参考訳（メタデータ） (2024-04-11T04:58:18Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文参考訳（メタデータ） (2023-03-21T17:59:02Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-15T08:01:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。