論文の概要: Composing Parts for Expressive Object Generation
- arxiv url: http://arxiv.org/abs/2406.10197v2
- Date: Sun, 29 Jun 2025 17:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.346179
- Title: Composing Parts for Expressive Object Generation
- Title(参考訳): 表現的オブジェクト生成のための構成部品
- Authors: Harsh Rangwani, Aishwarya Agarwal, Kuldeep Kulkarni, R. Venkatesh Babu, Srikrishna Karanam,
- Abstract要約: 本研究では,微粒な部分レベル属性に基づく画像生成を可能にするトレーニング不要なPartComposerを紹介する。
PartComposerは、特定の拡散プロセスからオブジェクト領域を識別することで、オブジェクト部分をローカライズする。
粒度の細かい部分属性に基づいて各部分領域に局所拡散プロセスを実行し,それらを組み合わせて最終画像を生成する。
- 参考スコア(独自算出の注目度): 37.791770942390485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image composition and generation are processes where the artists need control over various parts of the generated images. However, the current state-of-the-art generation models, like Stable Diffusion, cannot handle fine-grained part-level attributes in the text prompts. Specifically, when additional attribute details are added to the base text prompt, these text-to-image models either generate an image vastly different from the image generated from the base prompt or ignore the attribute details. To mitigate these issues, we introduce PartComposer, a training-free method that enables image generation based on fine-grained part-level attributes specified for objects in the base text prompt. This allows more control for artists and enables novel object compositions by combining distinctive object parts. PartComposer first localizes object parts by denoising the object region from a specific diffusion process. This enables each part token to be localized to the right region. After obtaining part masks, we run a localized diffusion process in each part region based on fine-grained part attributes and combine them to produce the final image. All stages of PartComposer are based on repurposing a pre-trained diffusion model, which enables it to generalize across domains. We demonstrate the effectiveness of part-level control provided by PartComposer through qualitative visual examples and quantitative comparisons with contemporary baselines.
- Abstract(参考訳): 画像合成と生成は、アーティストが生成された画像の様々な部分を制御する必要があるプロセスである。
しかし、Stable Diffusionのような現在の最先端生成モデルは、テキストプロンプトの細かい部分レベルの属性を処理できない。
具体的には、ベーステキストプロンプトに追加の属性詳細を追加すると、これらのテキスト・ツー・イメージモデルは、ベースプロンプトから生成された画像と大きく異なる画像を生成するか、属性の詳細を無視する。
これらの問題を緩和するために、ベーステキストプロンプト内のオブジェクトに指定された細粒度の部分レベル属性に基づいた画像生成を可能にする、トレーニング不要なPartComposerを導入する。
これにより、アーティストのコントロールが強化され、独特なオブジェクト部品を組み合わせることで、新しいオブジェクト合成が可能になる。
PartComposerは、オブジェクト領域を特定の拡散プロセスから切り離すことで、まずオブジェクト部分をローカライズする。
これにより、各部分トークンを適切な領域にローカライズすることができる。
部分マスクの取得後、各部分領域に微細な部分属性に基づいて局所拡散プロセスを実行し、それらを組み合わせて最終画像を生成する。
PartComposerのすべてのステージは、事前訓練された拡散モデルの再利用に基づいており、ドメイン間の一般化を可能にする。
本稿では,PartComposerが提供した部分レベル制御の有効性について,定性的視覚例と現代ベースラインとの定量的比較による検証を行った。
関連論文リスト
- PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models [63.1432721793683]
テキスト,画像,構造化されていない3Dオブジェクトから意味のある部分からなる3Dオブジェクトを生成する新しいアプローチであるPartGenを紹介する。
提案手法は, 生成された実物および実物の3次元資産に対して評価し, セグメンテーションおよび部分抽出ベースラインを大きなマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-24T18:59:43Z) - PartCraft: Crafting Creative Objects by Parts [128.30514851911218]
本稿では、ユーザが「選択」できることによって、生成的視覚AIにおける創造的制御を促進する。
私たちは初めて、創造的な努力のために、視覚的概念をパーツごとに選択できるようにしました。
選択された視覚概念を正確にキャプチャするきめ細かい生成。
論文 参考訳(メタデータ) (2024-07-05T15:53:04Z) - Compositional Image Decomposition with Diffusion Models [70.07406583580591]
本稿では,イメージを構成成分に分解する手法を提案する。
我々のアプローチであるDecomp Diffusionは、イメージ内の異なるコンポーネントのセットを推論する教師なしの手法である。
コンポーネントは、影や表情のようなグローバルなシーン記述子から、構成オブジェクトのようなローカルなシーン記述子まで、シーンのさまざまな要因をキャプチャする方法を実証する。
論文 参考訳(メタデータ) (2024-06-27T16:13:34Z) - ViFu: Multiple 360$^\circ$ Objects Reconstruction with Clean Background via Visible Part Fusion [7.8788463395442045]
本研究では,異なるタイムスタンプのシーンから,静的でクリーンな背景と360ドル単位のオブジェクトを分割して回収する手法を提案する。
我々の基本的な考え方は、同じ物体の集合を様々な配置で観察することで、あるシーンで見えない部分が他のシーンで見えるようになるというものである。
論文 参考訳(メタデータ) (2024-04-15T02:44:23Z) - PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering [13.785484396436367]
我々は、画像合成を主観的な局所的な編集タスクとして定式化し、前景生成にのみ焦点をあてる。
本研究では,様々なノイズレベルに対して注意制御を適切に設計することで,画像の合成を行う高速なトレーニングフリーディフューザであるPrimeComposerを提案する。
提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-08T04:58:49Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - gCoRF: Generative Compositional Radiance Fields [80.45269080324677]
オブジェクトの3次元生成モデルにより、3次元制御によるフォトリアリスティック画像合成が可能となる。
既存の方法はシーンをグローバルなシーン表現としてモデル化し、シーンの構成的側面を無視します。
本稿では,オブジェクトの各意味部分を独立した3次元表現として表現する合成生成モデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T14:10:44Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。