論文の概要: From Wardrobe to Canvas: Wardrobe Polyptych LoRA for Part-level Controllable Human Image Generation
- arxiv url: http://arxiv.org/abs/2507.10217v1
- Date: Mon, 14 Jul 2025 12:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.871655
- Title: From Wardrobe to Canvas: Wardrobe Polyptych LoRA for Part-level Controllable Human Image Generation
- Title(参考訳): ウォードローブからキャンバスへ:Wardrobe Polyptych LoRA for Part-level Controllable Human Image Generation
- Authors: Jeongho Kim, Sunghyun Park, Hyoungwoo Park, Sungrack Yun, Jaegul Choo, Seokeon Cho,
- Abstract要約: パーソナライズされた画像生成のための制御可能な部分レベル制御モデルであるWardrobe Polyptych LoRAを提案する。
提案手法は,LoRA層のみをトレーニングすることにより,未知の被写体の高忠実性合成を確保しつつ,推論時の計算負担を軽減する。
提案手法は, 忠実度と整合性において既存の技術よりも優れ, 現実的かつアイデンティティを保ったフルボディ合成を実現する。
- 参考スコア(独自算出の注目度): 38.69327045740156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion models achieve personalization by learning specific subjects, allowing learned attributes to be integrated into generated images. However, personalized human image generation remains challenging due to the need for precise and consistent attribute preservation (e.g., identity, clothing details). Existing subject-driven image generation methods often require either (1) inference-time fine-tuning with few images for each new subject or (2) large-scale dataset training for generalization. Both approaches are computationally expensive and impractical for real-time applications. To address these limitations, we present Wardrobe Polyptych LoRA, a novel part-level controllable model for personalized human image generation. By training only LoRA layers, our method removes the computational burden at inference while ensuring high-fidelity synthesis of unseen subjects. Our key idea is to condition the generation on the subject's wardrobe and leverage spatial references to reduce information loss, thereby improving fidelity and consistency. Additionally, we introduce a selective subject region loss, which encourages the model to disregard some of reference images during training. Our loss ensures that generated images better align with text prompts while maintaining subject integrity. Notably, our Wardrobe Polyptych LoRA requires no additional parameters at the inference stage and performs generation using a single model trained on a few training samples. We construct a new dataset and benchmark tailored for personalized human image generation. Extensive experiments show that our approach significantly outperforms existing techniques in fidelity and consistency, enabling realistic and identity-preserving full-body synthesis.
- Abstract(参考訳): 近年の拡散モデルでは、特定の主題を学習することでパーソナライズが可能であり、学習属性を生成画像に統合することができる。
しかし、正確で一貫した属性保存(アイデンティティ、衣服の詳細など)の必要性から、パーソナライズされた画像生成は依然として困難である。
既存の被写体駆動画像生成手法では,(1)新しい被写体ごとの画像が少ない推論時の微調整や,(2)一般化のための大規模データセットトレーニングが必要となることが多い。
どちらのアプローチも計算コストが高く、リアルタイムアプリケーションには実用的ではない。
これらの制約に対処するため、Wardrobe Polyptych LoRAは、パーソナライズされた人体画像生成のための、新しい部分レベル制御可能なモデルである。
提案手法は,LoRA層のみをトレーニングすることにより,未知の被写体の高忠実性合成を確保しつつ,推論時の計算負担を軽減する。
我々のキーとなる考え方は、被験者のワードローブに生成を条件付け、空間参照を利用して情報損失を低減し、忠実さと一貫性を向上させることである。
さらに、学習中の参照画像の一部を無視するようにモデルに促す選択的対象領域損失を導入する。
私たちの損失は、生成した画像が主観的整合性を維持しながらテキストプロンプトと整合性を保つことを保証する。
特に、私たちのWardrobe Polyptych LoRAは推論段階で追加のパラメータを必要とせず、いくつかのトレーニングサンプルでトレーニングされた単一のモデルを使用して生成を行います。
我々は、パーソナライズされた画像生成に適した新しいデータセットとベンチマークを構築した。
広汎な実験により,本手法は忠実度と一貫性において既存の技術よりも著しく優れており,現実的かつアイデンティティを保った全体合成が可能であることが示唆された。
関連論文リスト
- Single Image Iterative Subject-driven Generation and Editing [40.285860652338506]
SISOは、トレーニングなしで単一の画像から画像の生成と編集をパーソナライズするための、トレーニング不要なアプローチである。
SISOは、与えられた被写体画像との類似性の喪失に基づいて、画像を反復的に生成し、モデルを最適化する。
画像品質, 被写体忠実度, 背景保存における既存手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-03-20T10:45:04Z) - Controllable Human Image Generation with Personalized Multi-Garments [46.042383679103125]
BootCompは、テキストから画像への拡散モデルに基づく新しいフレームワークである。
本研究では,ヒトとマルチガーメントのペアからなる大規模な合成データセットを構築するためのデータ生成パイプラインを提案する。
ファッションドメインにおいて、異なるタイプの参照ベース生成に適応することで、フレームワークの幅広い適用性を示す。
論文 参考訳(メタデータ) (2024-11-25T12:37:13Z) - Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z) - Learning a Deep Reinforcement Learning Policy Over the Latent Space of a
Pre-trained GAN for Semantic Age Manipulation [4.306143768014157]
我々は、定義されたアイデンティティ境界の下で、特定の属性に沿って意味操作を行うための条件ポリシーを学習する。
以上の結果から,学習方針は年齢変化を伴う高忠実度画像のサンプルであることがわかった。
論文 参考訳(メタデータ) (2020-11-02T13:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。