論文の概要: Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization
- arxiv url: http://arxiv.org/abs/2406.16537v4
- Date: Sun, 29 Sep 2024 09:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:17.946305
- Title: Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization
- Title(参考訳): 文字適応器:高忠実度文字カスタマイズのためのプロンプトガイド型領域制御
- Authors: Yuhang Ma, Wenting Xu, Jiji Tang, Qinfeng Jin, Rongsheng Zhang, Zeng Zhao, Changjie Fan, Zhipeng Hu,
- Abstract要約: character-Adapterは、参照文字の詳細を保持するイメージを生成するために設計されたプラグイン・アンド・プレイのフレームワークである。
character-Adapterは、参照文字のきめ細かい地域的特徴を保証するために、プロンプト誘導セグメンテーションを使用する。
- 参考スコア(独自算出の注目度): 34.28477193804092
- License:
- Abstract: Customized image generation, which seeks to synthesize images with consistent characters, holds significant relevance for applications such as storytelling, portrait generation, and character design. However, previous approaches have encountered challenges in preserving characters with high-fidelity consistency due to inadequate feature extraction and concept confusion of reference characters. Therefore, we propose Character-Adapter, a plug-and-play framework designed to generate images that preserve the details of reference characters, ensuring high-fidelity consistency. Character-Adapter employs prompt-guided segmentation to ensure fine-grained regional features of reference characters and dynamic region-level adapters to mitigate concept confusion. Extensive experiments are conducted to validate the effectiveness of Character-Adapter. Both quantitative and qualitative results demonstrate that Character-Adapter achieves the state-of-the-art performance of consistent character generation, with an improvement of 24.8% compared with other methods. Our code will be released at https://github.com/Character-Adapter/Character-Adapter.
- Abstract(参考訳): イメージを一貫した文字で合成しようとするカスタマイズ画像生成は、ストーリーテリング、ポートレート生成、文字設計などの応用に大きく関連している。
しかし、従来の手法では、不適切な特徴抽出と参照文字の概念的混乱により、高忠実度な文字の保存が困難であった。
そこで本稿では,参照文字の詳細を保存し,高忠実性を確保した画像を生成するためのプラグイン・アンド・プレイ・フレームワークである character-Adapter を提案する。
Character-Adapterは、参照文字と動的領域レベルのアダプタのきめ細かい地域特性を保証し、概念の混乱を軽減するために、プロンプト誘導セグメンテーションを採用している。
文字適応器の有効性を検証するため, 広範囲な実験を行った。
定量的および定性的な結果は、キャラクタアダプタが一貫したキャラクタ生成の最先端性能を実現し、他の手法と比較して24.8%改善したことを示している。
私たちのコードはhttps://github.com/Character-Adapter/Character-Adapterでリリースされます。
関連論文リスト
- Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文 参考訳(メタデータ) (2024-05-20T07:54:03Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Identity-Aware Semi-Supervised Learning for Comic Character
Re-Identification [2.4624325014867763]
本稿では,メタラーニングと新しい「アイデンティティ・アウェア」自己監督手法を組み合わせた頑健なフレームワークを提案する。
我々のアプローチは、統合されたネットワークアーキテクチャにおいて、顔と身体の両方の機能を処理することである。
シリーズ内評価とシリーズ間評価の指標を用いて,本手法を広範囲に検証することにより,漫画のキャラクターを一貫した同定において,その有効性を示す。
論文 参考訳(メタデータ) (2023-08-17T16:48:41Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - CharFormer: A Glyph Fusion based Attentive Framework for High-precision
Character Image Denoising [10.53596428004378]
本稿では,グリフ融合とアテンション機構に基づく新しいフレームワーク,すなわちCharFormerを導入し,文字画像の正確な復元を行う。
既存のフレームワークとは異なり、CharFormerは追加情報をキャプチャし、バックボーンを飾るイメージにそれを注入する並列ターゲットタスクを導入している。
我々は注目に基づくネットワークをグローバルな特徴相互作用に利用し、視覚障害者の認知と聴覚障害者のパフォーマンス向上に役立てる。
論文 参考訳(メタデータ) (2022-07-16T01:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。