論文の概要: 3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
- arxiv url: http://arxiv.org/abs/2501.05131v1
- Date: Thu, 09 Jan 2025 10:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:09.724312
- Title: 3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
- Title(参考訳): 3DIS-FLUX:DiTレンダリングによるシンプルで効率的なマルチインスタンス生成
- Authors: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang,
- Abstract要約: 3DIS-FLUXは3DISフレームワークの拡張であり、FLUXモデルを統合してレンダリング機能を強化している。
FLUX.1-Depth-devモデルを用いて深度マップ制御画像生成を行い、FLUXのジョイントアテンション機構におけるアテンションマスクを操作するディテールを導入する。
- 参考スコア(独自算出の注目度): 30.241857090353864
- License:
- Abstract: The growing demand for controllable outputs in text-to-image generation has driven significant advancements in multi-instance generation (MIG), enabling users to define both instance layouts and attributes. Currently, the state-of-the-art methods in MIG are primarily adapter-based. However, these methods necessitate retraining a new adapter each time a more advanced model is released, resulting in significant resource consumption. A methodology named Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which decouples MIG into two distinct phases: 1) depth-based scene construction and 2) detail rendering with widely pre-trained depth control models. The 3DIS method requires adapter training solely during the scene construction phase, while enabling various models to perform training-free detail rendering. Initially, 3DIS focused on rendering techniques utilizing U-Net architectures such as SD1.5, SD2, and SDXL, without exploring the potential of recent DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension of the 3DIS framework that integrates the FLUX model for enhanced rendering capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map controlled image generation and introduce a detail renderer that manipulates the Attention Mask in FLUX's Joint Attention mechanism based on layout information. This approach allows for the precise rendering of fine-grained attributes of each instance. Our experimental results indicate that 3DIS-FLUX, leveraging the FLUX model, outperforms the original 3DIS method, which utilized SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in terms of both performance and image quality. Project Page: https://limuloo.github.io/3DIS/.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションにおける制御可能な出力の需要の増加により、マルチインスタンス・ジェネレーション(MIG)が大幅に進歩し、ユーザはインスタンスのレイアウトと属性の両方を定義できるようになった。
現在、MIGの最先端のメソッドは主にアダプタベースである。
しかし、これらの手法では、より高度なモデルがリリースされる度に新しいアダプタを再訓練する必要があるため、かなりのリソース消費が発生する。
Depth-Driven Decoupled Instance Synthesis (3DIS)と呼ばれる手法が導入され、MIGを2つの相に分解する。
1)奥行きに基づくシーンの構築
2)広範に訓練された深度制御モデルによる詳細なレンダリング。
3DIS法では、シーン構築段階でのみアダプタのトレーニングが必要であり、様々なモデルでトレーニング不要のディテールレンダリングを行うことができる。
3DISは当初、SD1.5、SD2、SDXLのようなU-Netアーキテクチャを利用したレンダリング技術に重点を置いていたが、FLUXのような最近のDiTベースのモデルの可能性を探ることはできなかった。
本稿では,3DISフレームワークの拡張である3DIS-FLUXについて述べる。
具体的には、深度マップ制御画像生成にFLUX.1-Depth-devモデルを用い、レイアウト情報に基づいたFLUXのジョイントアテンション機構におけるアテンションマスクを操作するディテールレンダラを導入する。
このアプローチにより、各インスタンスのきめ細かい属性の正確なレンダリングが可能になる。
実験の結果, FLUXモデルを用いた3DIS-FLUXは, SD2とSDXLを併用した3DIS法よりも優れており, 性能と画質の両面で, 現在のアダプタ方式よりも優れていることがわかった。
プロジェクトページ: https://limuloo.github.io/3DIS/。
関連論文リスト
- SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - 3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation [30.241857090353864]
MIG技術はSD2やSDXLのような最先端のモデルでは広く採用されていない。
Depth-Driven Decoupled Instance Synthesis (3DIS)を紹介する。
我々のフレームワークは、正確な深度レイアウトのためにカスタムアダプタを LDM3D に統合し、インスタンスレベルの属性レンダリングを強化するための微調整不要な手法を採用している。
論文 参考訳(メタデータ) (2024-10-16T15:34:13Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - 3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。
本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。
我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:03:18Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。