論文の概要: ComposeMe: Attribute-Specific Image Prompts for Controllable Human Image Generation
- arxiv url: http://arxiv.org/abs/2509.18092v1
- Date: Mon, 22 Sep 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.559323
- Title: ComposeMe: Attribute-Specific Image Prompts for Controllable Human Image Generation
- Title(参考訳): ComposeMe: 制御可能な人体画像生成のための属性特異的画像プロンプト
- Authors: Guocheng Gordon Qian, Daniil Ostashev, Egor Nemchinov, Avihay Assouline, Sergey Tulyakov, Kuan-Chieh Jackson Wang, Kfir Aberman,
- Abstract要約: 本稿では,属性特異的な画像プロンプトのための新しいパラダイムを紹介し,人間の外見の個々の側面の生成を導くために,異なる参照画像群を用いる。
提案手法は,これらの入力を属性固有のトークンにエンコードし,事前学習したテキスト・画像拡散モデルに注入する。
これにより、複数の視覚的要因に対する構成的および非絡み合いの制御が可能となり、1つの画像内の複数の人にわたっても可能となる。
- 参考スコア(独自算出の注目度): 39.34778197087224
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating high-fidelity images of humans with fine-grained control over attributes such as hairstyle and clothing remains a core challenge in personalized text-to-image synthesis. While prior methods emphasize identity preservation from a reference image, they lack modularity and fail to provide disentangled control over specific visual attributes. We introduce a new paradigm for attribute-specific image prompting, in which distinct sets of reference images are used to guide the generation of individual aspects of human appearance, such as hair, clothing, and identity. Our method encodes these inputs into attribute-specific tokens, which are injected into a pre-trained text-to-image diffusion model. This enables compositional and disentangled control over multiple visual factors, even across multiple people within a single image. To promote natural composition and robust disentanglement, we curate a cross-reference training dataset featuring subjects in diverse poses and expressions, and propose a multi-attribute cross-reference training strategy that encourages the model to generate faithful outputs from misaligned attribute inputs while adhering to both identity and textual conditioning. Extensive experiments show that our method achieves state-of-the-art performance in accurately following both visual and textual prompts. Our framework paves the way for more configurable human image synthesis by combining visual prompting with text-driven generation. Webpage is available at: https://snap-research.github.io/composeme/.
- Abstract(参考訳): ヘアスタイルや衣服などの属性をきめ細かな制御で高忠実度画像を生成することは、パーソナライズされたテキスト・ツー・イメージ・シンセサイザーにおける中核的な課題である。
以前の手法では参照画像からのアイデンティティ保存が重視されていたが、モジュラリティが欠如しており、特定の視覚属性に対するアンタングル制御ができない。
本稿では,髪や衣服,アイデンティティなど,人間の外見の個々の側面の生成を導くために,異なる参照画像群を用いた属性固有画像プロンプトの新たなパラダイムを提案する。
提案手法は,これらの入力を属性固有のトークンにエンコードし,事前学習したテキスト・画像拡散モデルに注入する。
これにより、複数の視覚的要因に対する構成的および非絡み合いの制御が可能となり、1つの画像内の複数の人にわたっても可能となる。
自然構成と頑健な絡み合いを促進するため,多様なポーズや表現の被験者を対象とする相互参照トレーニングデータセットをキュレートし,同一性とテキスト条件の両方に固執しながら,不整合属性入力から忠実な出力をモデルに生成させる多属性相互参照トレーニング戦略を提案する。
広汎な実験により,本手法は視覚とテキストの両方のプロンプトを正確に追従し,最先端の性能を実現する。
我々のフレームワークは、視覚的プロンプトとテキスト駆動生成を組み合わせることで、より構成可能な人間の画像合成の道を開く。
Webpage は以下の https://snap-research.github.io/composeme/ で公開されている。
関連論文リスト
- Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Controllable Person Image Synthesis with Attribute-Decomposed GAN [27.313729413684012]
本稿では,制御可能な人物画像合成のための新しい生成モデルであるAttribute-Decomposed GANを紹介する。
提案されたモデルの中核となる考え方は、人間の属性を独立したコードとして潜在空間に埋め込むことである。
実験により,提案手法がポーズ伝達における技量よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。