論文の概要: InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
- arxiv url: http://arxiv.org/abs/2504.12395v1
- Date: Wed, 16 Apr 2025 18:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:07.570783
- Title: InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
- Title(参考訳): InstantCharacter: スケーラブルな拡散トランスフォーマーフレームワークで文字をパーソナライズする
- Authors: Jiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu,
- Abstract要約: InstantCharacterは、基礎拡散変換器上に構築された文字カスタマイズのためのスケーラブルなフレームワークである。
多様なキャラクターの外観、ポーズ、スタイルにまたがるオープンドメインのパーソナライゼーションを実現し、高忠実度な結果を維持する。
- 参考スコア(独自算出の注目度): 24.29397138274732
- License:
- Abstract: Current learning-based subject customization approaches, predominantly relying on U-Net architectures, suffer from limited generalization ability and compromised image quality. Meanwhile, optimization-based methods require subject-specific fine-tuning, which inevitably degrades textual controllability. To address these challenges, we propose InstantCharacter, a scalable framework for character customization built upon a foundation diffusion transformer. InstantCharacter demonstrates three fundamental advantages: first, it achieves open-domain personalization across diverse character appearances, poses, and styles while maintaining high-fidelity results. Second, the framework introduces a scalable adapter with stacked transformer encoders, which effectively processes open-domain character features and seamlessly interacts with the latent space of modern diffusion transformers. Third, to effectively train the framework, we construct a large-scale character dataset containing 10-million-level samples. The dataset is systematically organized into paired (multi-view character) and unpaired (text-image combinations) subsets. This dual-data structure enables simultaneous optimization of identity consistency and textual editability through distinct learning pathways. Qualitative experiments demonstrate the advanced capabilities of InstantCharacter in generating high-fidelity, text-controllable, and character-consistent images, setting a new benchmark for character-driven image generation. Our source code is available at https://github.com/Tencent/InstantCharacter.
- Abstract(参考訳): 現在の学習に基づく主題のカスタマイズアプローチは、主にU-Netアーキテクチャに依存しており、限定的な一般化能力と妥協された画像品質に悩まされている。
一方、最適化に基づく手法は、必然的にテキスト制御性を低下させる主観的な微調整を必要とする。
これらの課題に対処するために,基礎拡散変換器上に構築された文字カスタマイズのためのスケーラブルなフレームワークであるInstantCharacterを提案する。
InstantCharacterは3つの基本的な利点を実証している。まず、多彩なキャラクターの外観、ポーズ、スタイルにまたがるオープンドメインのパーソナライゼーションを実現し、高忠実度の結果を維持する。
第二に、このフレームワークはスタック化されたトランスフォーマーエンコーダを備えたスケーラブルなアダプタを導入し、オープンドメイン文字の特徴を効果的に処理し、現代の拡散トランスフォーマーの潜在空間とシームレスに相互作用する。
第3に,フレームワークを効果的にトレーニングするために,1000万レベルのサンプルを含む大規模文字データセットを構築した。
データセットは、体系的に、ペア(複数ビューキャラクタ)とアンペア(テキスト-イメージの組み合わせ)サブセットに分割される。
この二重データ構造は、異なる学習経路を通じて、アイデンティティ一貫性とテキスト編集可能性の同時最適化を可能にする。
定性的実験により、InstantCharacterの高忠実性、テキスト制御可能、および文字一貫性の画像生成における高度な能力を実証し、文字駆動画像生成のための新しいベンチマークを設定する。
ソースコードはhttps://github.com/Tencent/InstantCharacter.comから入手可能です。
関連論文リスト
- DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - Disentangled Representation Learning for Controllable Person Image
Generation [29.719070087384512]
本稿ではDRL-CPGという新しいフレームワークを提案する。
我々の知る限り、私たちは人物画像生成のためのトランスフォーマーによる非絡み合いの潜在表現を初めて学習する。
論文 参考訳(メタデータ) (2023-12-10T07:15:58Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。