論文の概要: Visual Persona: Foundation Model for Full-Body Human Customization
- arxiv url: http://arxiv.org/abs/2503.15406v2
- Date: Mon, 24 Mar 2025 07:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 11:09:49.274475
- Title: Visual Persona: Foundation Model for Full-Body Human Customization
- Title(参考訳): ビジュアルペルソナ:フルボディヒューマンカスタマイズのための基礎モデル
- Authors: Jisu Nam, Soowon Son, Zhan Xu, Jing Shi, Difan Liu, Feng Liu, Aashish Misraa, Seungryong Kim, Yang Zhou,
- Abstract要約: テキストから画像へのフルボディのカスタマイズのためのモデルであるVisual Personaを紹介する。
提案手法は,身体構造やシーンのバリエーションに関する文章記述と整合して,全身の外観を詳細に把握する。
Visual Personaは既存のアプローチを一貫して上回り、高品質でカスタマイズされた画像を生成する。
- 参考スコア(独自算出の注目度): 36.135949939650786
- License:
- Abstract: We introduce Visual Persona, a foundation model for text-to-image full-body human customization that, given a single in-the-wild human image, generates diverse images of the individual guided by text descriptions. Unlike prior methods that focus solely on preserving facial identity, our approach captures detailed full-body appearance, aligning with text descriptions for body structure and scene variations. Training this model requires large-scale paired human data, consisting of multiple images per individual with consistent full-body identities, which is notoriously difficult to obtain. To address this, we propose a data curation pipeline leveraging vision-language models to evaluate full-body appearance consistency, resulting in Visual Persona-500K, a dataset of 580k paired human images across 100k unique identities. For precise appearance transfer, we introduce a transformer encoder-decoder architecture adapted to a pre-trained text-to-image diffusion model, which augments the input image into distinct body regions, encodes these regions as local appearance features, and projects them into dense identity embeddings independently to condition the diffusion model for synthesizing customized images. Visual Persona consistently surpasses existing approaches, generating high-quality, customized images from in-the-wild inputs. Extensive ablation studies validate design choices, and we demonstrate the versatility of Visual Persona across various downstream tasks.
- Abstract(参考訳): テキスト・ツー・イメージのフルボディ・ヒューマン・カスタマイズのための基礎モデルであるVisual Personaを導入する。
顔認証のみに焦点をあてる従来の方法とは異なり、本手法は体の構造やシーンのバリエーションに関するテキスト記述と整合して、詳細な全身の外観を捉えている。
このモデルを訓練するには、個人ごとに複数の画像で構成され、一貫したフルボディのアイデンティティを持つ大規模なペアデータが必要である。
そこで本研究では,視覚言語モデルを利用したデータキュレーションパイプラインを提案する。その結果,100kのユニークなアイデンティティに対して580万対の人間の画像のデータセットである Visual Persona-500K が得られた。
本稿では,事前訓練されたテキスト-画像拡散モデルに適応したトランスフォーマーエンコーダ・デコーダアーキテクチャを導入し,入力画像を異なる身体領域に拡張し,これらの領域を局所的な外観特徴として符号化し,カスタマイズされた画像の拡散モデルを条件に独立に密なアイデンティティ埋め込みに投影する。
Visual Personaは既存のアプローチを一貫して上回り、高品質でカスタマイズされた画像を生成する。
大規模なアブレーション研究は設計選択を検証し、様々な下流タスクにおけるビジュアルペルソナの汎用性を実証する。
関連論文リスト
- Controllable Human Image Generation with Personalized Multi-Garments [46.042383679103125]
BootCompは、テキストから画像への拡散モデルに基づく新しいフレームワークである。
本研究では,ヒトとマルチガーメントのペアからなる大規模な合成データセットを構築するためのデータ生成パイプラインを提案する。
ファッションドメインにおいて、異なるタイプの参照ベース生成に適応することで、フレームワークの幅広い適用性を示す。
論文 参考訳(メタデータ) (2024-11-25T12:37:13Z) - Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - MyStyle: A Personalized Generative Prior [38.3436972491162]
MyStyleはパーソナライズされたディープジェネレーティブで、個人を数枚のショットで訓練する。
MyStyleは、特定の人の画像を再構成、拡張、編集することができる。
論文 参考訳(メタデータ) (2022-03-31T17:59:19Z) - Personalized visual encoding model construction with small data [1.6799377888527687]
既存のエンコーディングモデルを活用するために,パーソナライズされたアンサンブルエンコーディングモデルアプローチを提案し,検証する。
これらのパーソナライズされたアンサンブル符号化モデルが、特定の個人に対して少量のデータで訓練されていることを示す。
重要なことは、パーソナライズされたアンサンブル符号化モデルは、画像-応答関係における個人間の変動パターンを保存することである。
論文 参考訳(メタデータ) (2022-02-04T17:24:50Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - Pose Manipulation with Identity Preservation [0.0]
本稿では,文字適応性正規化GAN(CainGAN)を提案する。
CainGANは特定の個人から顔の数字を受け取り、その人物の身元を保存しながら新しい顔を生成する。
実験の結果, 生成画像の品質は, 推論時に使用する入力セットのサイズと一致していることがわかった。
論文 参考訳(メタデータ) (2020-04-20T09:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。