論文の概要: Chimera: Compositional Image Generation using Part-based Concepting
- arxiv url: http://arxiv.org/abs/2510.18083v1
- Date: Mon, 20 Oct 2025 20:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.5575
- Title: Chimera: Compositional Image Generation using Part-based Concepting
- Title(参考訳): Chimera: Part-based Concepting を用いた合成画像生成
- Authors: Shivam Singh, Yiming Chen, Agneet Chatterjee, Amit Raj, James Hays, Yezhou Yang, Chitra Baral,
- Abstract要約: 我々は、異なるソース画像から特定部分を組み合わせることで、新しいオブジェクトを生成するパーソナライズされた画像生成モデルであるChimeraを紹介する。
我々は,イメージコンディショニング機能を活用し,セマンティック・アイデンティティと空間的レイアウトの両方を強制する,部分条件誘導を用いたカスタム拡散事前モデルを訓練する。
人間の評価と測定値から,キメラは他の基準線を14%上回り,構成精度は21%,視力は21%向上した。
- 参考スコア(独自算出の注目度): 37.65194766895454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized image generative models are highly proficient at synthesizing images from text or a single image, yet they lack explicit control for composing objects from specific parts of multiple source images without user specified masks or annotations. To address this, we introduce Chimera, a personalized image generation model that generates novel objects by combining specified parts from different source images according to textual instructions. To train our model, we first construct a dataset from a taxonomy built on 464 unique (part, subject) pairs, which we term semantic atoms. From this, we generate 37k prompts and synthesize the corresponding images with a high-fidelity text-to-image model. We train a custom diffusion prior model with part-conditional guidance, which steers the image-conditioning features to enforce both semantic identity and spatial layout. We also introduce an objective metric PartEval to assess the fidelity and compositional accuracy of generation pipelines. Human evaluations and our proposed metric show that Chimera outperforms other baselines by 14% in part alignment and compositional accuracy and 21% in visual quality.
- Abstract(参考訳): パーソナライズされた画像生成モデルは、テキストや単一の画像からのイメージの合成に非常に熟練しているが、ユーザ指定のマスクやアノテーションを使わずに、複数のソースイメージの特定の部分からオブジェクトを構成するための明確な制御が欠如している。
そこで本研究では,テキストの指示に従って,異なるソース画像から特定部分を組み合わせることで,新たなオブジェクトを生成するパーソナライズされた画像生成モデルであるChimeraを紹介する。
モデルをトレーニングするために、まず464のユニークな(一部、対象)ペア上に構築された分類からデータセットを構築します。
そこで我々は37kのプロンプトを生成し,高忠実度テキスト・画像モデルを用いて対応する画像を合成する。
我々は,イメージコンディショニング機能を活用し,セマンティック・アイデンティティと空間的レイアウトの両方を強制する,部分条件誘導を用いたカスタム拡散事前モデルを訓練する。
また、生成パイプラインの忠実度と構成精度を評価するために、客観的な測定値PartEvalを導入する。
人間の評価と測定結果から,キメラは部分的アライメントと構成精度が14%,視覚的品質が21%,他のベースラインが14%向上していることが示唆された。
関連論文リスト
- ComposeMe: Attribute-Specific Image Prompts for Controllable Human Image Generation [39.34778197087224]
本稿では,属性特異的な画像プロンプトのための新しいパラダイムを紹介し,人間の外見の個々の側面の生成を導くために,異なる参照画像群を用いる。
提案手法は,これらの入力を属性固有のトークンにエンコードし,事前学習したテキスト・画像拡散モデルに注入する。
これにより、複数の視覚的要因に対する構成的および非絡み合いの制御が可能となり、1つの画像内の複数の人にわたっても可能となる。
論文 参考訳(メタデータ) (2025-09-22T17:59:30Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。