論文の概要: MV-Adapter: Multi-view Consistent Image Generation Made Easy
- arxiv url: http://arxiv.org/abs/2412.03632v1
- Date: Wed, 04 Dec 2024 18:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:02.832161
- Title: MV-Adapter: Multi-view Consistent Image Generation Made Easy
- Title(参考訳): MV-Adapter:マルチビュー一貫性画像生成を容易にする
- Authors: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng,
- Abstract要約: 既存のマルチビュー画像生成手法は、事前訓練されたテキスト・ツー・イメージモデルに侵入的な修正を加えることが多い。
マルチビュー画像生成のための最初のアダプタと,汎用的なプラグアンドプレイアダプタであるMVAdapterを提案する。
- 参考スコア(独自算出の注目度): 60.93957644923608
- License:
- Abstract: Existing multi-view image generation methods often make invasive modifications to pre-trained text-to-image (T2I) models and require full fine-tuning, leading to (1) high computational costs, especially with large base models and high-resolution images, and (2) degradation in image quality due to optimization difficulties and scarce high-quality 3D data. In this paper, we propose the first adapter-based solution for multi-view image generation, and introduce MV-Adapter, a versatile plug-and-play adapter that enhances T2I models and their derivatives without altering the original network structure or feature space. By updating fewer parameters, MV-Adapter enables efficient training and preserves the prior knowledge embedded in pre-trained models, mitigating overfitting risks. To efficiently model the 3D geometric knowledge within the adapter, we introduce innovative designs that include duplicated self-attention layers and parallel attention architecture, enabling the adapter to inherit the powerful priors of the pre-trained models to model the novel 3D knowledge. Moreover, we present a unified condition encoder that seamlessly integrates camera parameters and geometric information, facilitating applications such as text- and image-based 3D generation and texturing. MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion XL (SDXL), and demonstrates adaptability and versatility. It can also be extended to arbitrary view generation, enabling broader applications. We demonstrate that MV-Adapter sets a new quality standard for multi-view image generation, and opens up new possibilities due to its efficiency, adaptability and versatility.
- Abstract(参考訳): 既存のマルチビュー画像生成手法は、事前訓練されたテキスト・ツー・イメージ(T2I)モデルに侵入的な修正を加え、完全な微調整を必要とすることが多いため、(1)大規模ベースモデル、特に高解像度画像の計算コストが高く、(2)最適化の困難さと高品質な3Dデータ不足により画質が劣化する。
本稿では、マルチビュー画像生成のための最初のアダプタベースのソリューションを提案し、元のネットワーク構造や特徴空間を変更することなく、T2Iモデルとそのデリバティブを拡張する汎用的なプラグアンドプレイアダプタであるMV-Adapterを紹介する。
パラメータを少なくすることで、MV-Adapterは効率的なトレーニングを可能にし、事前訓練されたモデルに埋め込まれた事前知識を保存し、過度な適合リスクを軽減する。
アダプタ内での3次元幾何学的知識を効率的にモデル化するために、重複した自己注意層と並列注意アーキテクチャを含む革新的な設計を導入し、事前学習されたモデルの強力な先行を継承し、新しい3D知識をモデル化する。
さらに,カメラパラメータと幾何情報とをシームレスに統合し,テキストや画像に基づく3D生成やテクスチャ作成などの応用を容易にする統一条件エンコーダを提案する。
MV-Adapterは、SDXL(Stable Diffusion XL)の768解像度でマルチビュー生成を実現し、適応性と汎用性を示す。
任意のビュー生成に拡張することもでき、より広範なアプリケーションを可能にする。
我々は、MV-Adapterがマルチビュー画像生成のための新しい品質基準を設定し、その効率性、適応性、汎用性のために新しい可能性を開くことを実証した。
関連論文リスト
- UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter [23.690420512911146]
Inv-Adapter は,DDIM 画像の逆変換により事前学習したテキスト・ツー・イメージモデルを用いて,ID 画像の拡散領域表現を抽出する。
抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。
提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。
論文 参考訳(メタデータ) (2024-06-05T02:59:08Z) - Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2024-05-21T17:50:12Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。