論文の概要: Crafting Parts for Expressive Object Composition
- arxiv url: http://arxiv.org/abs/2406.10197v1
- Date: Fri, 14 Jun 2024 17:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:37:07.702398
- Title: Crafting Parts for Expressive Object Composition
- Title(参考訳): 表現的オブジェクト構成のための製作部品
- Authors: Harsh Rangwani, Aishwarya Agarwal, Kuldeep Kulkarni, R. Venkatesh Babu, Srikrishna Karanam,
- Abstract要約: PartCraftは、ベーステキストプロンプト内のオブジェクトに指定されたきめ細かい部分レベルの詳細に基づいた画像生成を可能にする。
PartCraftは、オブジェクト領域を特定の拡散プロセスから切り離すことで、まずオブジェクト部分をローカライズする。
部分マスクの取得後,各部分領域に微細な部分記述に基づいて局所拡散プロセスを実行する。
- 参考スコア(独自算出の注目度): 37.791770942390485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation from large generative models like Stable Diffusion, DALLE-2, etc., have become a common base for various tasks due to their superior quality and extensive knowledge bases. As image composition and generation are creative processes the artists need control over various parts of the images being generated. We find that just adding details about parts in the base text prompt either leads to an entirely different image (e.g., missing/incorrect identity) or the extra part details simply being ignored. To mitigate these issues, we introduce PartCraft, which enables image generation based on fine-grained part-level details specified for objects in the base text prompt. This allows more control for artists and enables novel object compositions by combining distinctive object parts. PartCraft first localizes object parts by denoising the object region from a specific diffusion process. This enables each part token to be localized to the right object region. After obtaining part masks, we run a localized diffusion process in each of the part regions based on fine-grained part descriptions and combine them to produce the final image. All the stages of PartCraft are based on repurposing a pre-trained diffusion model, which enables it to generalize across various domains without training. We demonstrate the effectiveness of part-level control provided by PartCraft qualitatively through visual examples and quantitatively in comparison to the contemporary baselines.
- Abstract(参考訳): 安定拡散, DALLE-2などの大規模生成モデルからのテキスト・ツー・イメージ生成は, 優れた品質と豊富な知識基盤のため, 様々なタスクの共通基盤となっている。
画像合成と生成は創造的なプロセスであるので、アーティストは生成される画像の様々な部分を制御する必要がある。
ベーステキストのプロンプトに部分の詳細を追加するだけで、全く異なるイメージ(例えば、欠落/誤認識)になるか、余分な部分の詳細が単に無視されるかが分かる。
これらの問題を緩和するために、ベーステキストプロンプト内のオブジェクトに指定された細かな部分レベルの詳細に基づいて画像を生成するPartCraftを導入する。
これにより、アーティストのコントロールが強化され、独特なオブジェクト部品を組み合わせることで、新しいオブジェクト合成が可能になる。
PartCraftは、オブジェクト領域を特定の拡散プロセスから切り離すことで、まずオブジェクト部分をローカライズする。
これにより、各部分トークンを適切なオブジェクト領域にローカライズすることができる。
部分マスクの取得後,各部分領域に微細な部分記述に基づいて局所拡散プロセスを実行し,それらを組み合わせて最終画像を生成する。
PartCraftのすべてのステージは、トレーニング済みの拡散モデルの再利用に基づいており、トレーニングなしでさまざまなドメインをまたいで一般化することができる。
本研究では,PartCraftが提供する部分レベル制御の有効性を,視覚的な例を通して質的に,現代ベースラインと比較して定量的に示す。
関連論文リスト
- PartCraft: Crafting Creative Objects by Parts [128.30514851911218]
本稿では、ユーザが「選択」できることによって、生成的視覚AIにおける創造的制御を促進する。
私たちは初めて、創造的な努力のために、視覚的概念をパーツごとに選択できるようにしました。
選択された視覚概念を正確にキャプチャするきめ細かい生成。
論文 参考訳(メタデータ) (2024-07-05T15:53:04Z) - Compositional Image Decomposition with Diffusion Models [70.07406583580591]
本稿では,イメージを構成成分に分解する手法を提案する。
我々のアプローチであるDecomp Diffusionは、イメージ内の異なるコンポーネントのセットを推論する教師なしの手法である。
コンポーネントは、影や表情のようなグローバルなシーン記述子から、構成オブジェクトのようなローカルなシーン記述子まで、シーンのさまざまな要因をキャプチャする方法を実証する。
論文 参考訳(メタデータ) (2024-06-27T16:13:34Z) - ViFu: Multiple 360$^\circ$ Objects Reconstruction with Clean Background via Visible Part Fusion [7.8788463395442045]
本研究では,異なるタイムスタンプのシーンから,静的でクリーンな背景と360ドル単位のオブジェクトを分割して回収する手法を提案する。
我々の基本的な考え方は、同じ物体の集合を様々な配置で観察することで、あるシーンで見えない部分が他のシーンで見えるようになるというものである。
論文 参考訳(メタデータ) (2024-04-15T02:44:23Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Text2Scene: Text-driven Indoor Scene Stylization with Part-aware Details [12.660352353074012]
複数のオブジェクトからなる仮想シーンの現実的なテクスチャを自動生成するText2Sceneを提案する。
我々のパイプラインは、室内のラベル付き3Dジオメトリに詳細なテクスチャを追加し、生成した色が、しばしば類似の材料から構成される階層構造や意味的な部分を尊重するようにします。
論文 参考訳(メタデータ) (2023-08-31T17:37:23Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - gCoRF: Generative Compositional Radiance Fields [80.45269080324677]
オブジェクトの3次元生成モデルにより、3次元制御によるフォトリアリスティック画像合成が可能となる。
既存の方法はシーンをグローバルなシーン表現としてモデル化し、シーンの構成的側面を無視します。
本稿では,オブジェクトの各意味部分を独立した3次元表現として表現する合成生成モデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T14:10:44Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。