Fugu-MT 論文翻訳(概要): Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization

論文の概要: Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization

arxiv url: http://arxiv.org/abs/2406.16537v4
Date: Sun, 29 Sep 2024 09:07:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 08:07:25.295675
Title: Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization
Title（参考訳）: 文字適応器:高忠実度文字カスタマイズのためのプロンプトガイド型領域制御
Authors: Yuhang Ma, Wenting Xu, Jiji Tang, Qinfeng Jin, Rongsheng Zhang, Zeng Zhao, Changjie Fan, Zhipeng Hu,
Abstract要約: character-Adapterは、参照文字の詳細を保持するイメージを生成するために設計されたプラグイン・アンド・プレイのフレームワークである。 character-Adapterは、参照文字のきめ細かい地域的特徴を保証するために、プロンプト誘導セグメンテーションを使用する。
参考スコア（独自算出の注目度）: 34.28477193804092
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Customized image generation, which seeks to synthesize images with consistent characters, holds significant relevance for applications such as storytelling, portrait generation, and character design. However, previous approaches have encountered challenges in preserving characters with high-fidelity consistency due to inadequate feature extraction and concept confusion of reference characters. Therefore, we propose Character-Adapter, a plug-and-play framework designed to generate images that preserve the details of reference characters, ensuring high-fidelity consistency. Character-Adapter employs prompt-guided segmentation to ensure fine-grained regional features of reference characters and dynamic region-level adapters to mitigate concept confusion. Extensive experiments are conducted to validate the effectiveness of Character-Adapter. Both quantitative and qualitative results demonstrate that Character-Adapter achieves the state-of-the-art performance of consistent character generation, with an improvement of 24.8% compared with other methods. Our code will be released at https://github.com/Character-Adapter/Character-Adapter.
Abstract（参考訳）: イメージを一貫した文字で合成しようとするカスタマイズ画像生成は、ストーリーテリング、ポートレート生成、文字設計などの応用に大きく関連している。しかし、従来の手法では、不適切な特徴抽出と参照文字の概念的混乱により、高忠実度な文字の保存が困難であった。そこで本稿では,参照文字の詳細を保存し,高忠実性を確保した画像を生成するためのプラグイン・アンド・プレイ・フレームワークである character-Adapter を提案する。 Character-Adapterは、参照文字と動的領域レベルのアダプタのきめ細かい地域特性を保証し、概念の混乱を軽減するために、プロンプト誘導セグメンテーションを採用している。文字適応器の有効性を検証するため, 広範囲な実験を行った。定量的および定性的な結果は、キャラクタアダプタが一貫したキャラクタ生成の最先端性能を実現し、他の手法と比較して24.8%改善したことを示している。私たちのコードはhttps://github.com/Character-Adapter/Character-Adapterでリリースされます。

関連論文リスト

Retrieval Augmented Comic Image Generation [2.8594383542895385]
本稿では,一貫したキャラクタと表現的ジェスチャーを持つ漫画風画像列を生成する新しいシステムであるRaCigを提案する。 RaCigは2つの重要な課題に対処している。
論文参考訳（メタデータ） (2025-06-14T14:18:47Z)
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework [24.29397138274732]
InstantCharacterは、基礎拡散変換器上に構築された文字カスタマイズのためのスケーラブルなフレームワークである。多様なキャラクターの外観、ポーズ、スタイルにまたがるオープンドメインのパーソナライゼーションを実現し、高忠実度な結果を維持する。
論文参考訳（メタデータ） (2025-04-16T18:01:59Z)
CharacterBench: Benchmarking Character Customization of Large Language Models [80.29164862682063]
我々は,最大2言語生成ベンチマークである characterBench を提案し,3,956 文字を含む22,859 人の注釈付きサンプルを作成した。我々は,各応答に現れる特定の次元によって評価される特徴量に基づいて,スパース次元と密度次元に分類される6つの側面の11次元を定義する。また,コスト効率と安定した評価のためのキャラクタジャッジモデルも開発している。
論文参考訳（メタデータ） (2024-12-16T15:55:34Z)
StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization [36.14275850149665]
本稿では,様々なストーリー関連知識を包括的に表現した新しい知識グラフ,すなわちキャラクタグラフ(textbfCG)を提案する。次に、リッチテキストセマンティクスと一貫したストーリー視覚化が可能な、キャラクタグラフ(textbfC-CG)によるカスタマイズを実現するイメージジェネレータであるStoryWeaverを紹介する。
論文参考訳（メタデータ） (2024-12-10T10:16:50Z)
Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。 EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文参考訳（メタデータ） (2024-05-20T07:54:03Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文参考訳（メタデータ） (2024-03-20T12:13:04Z)
Masked Generative Story Transformer with Character Guidance and Caption Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文参考訳（メタデータ） (2024-03-13T13:10:20Z)
When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文参考訳（メタデータ） (2023-11-29T09:05:14Z)
Identity-Aware Semi-Supervised Learning for Comic Character Re-Identification [2.4624325014867763]
本稿では,メタラーニングと新しい「アイデンティティ・アウェア」自己監督手法を組み合わせた頑健なフレームワークを提案する。我々のアプローチは、統合されたネットワークアーキテクチャにおいて、顔と身体の両方の機能を処理することである。シリーズ内評価とシリーズ間評価の指標を用いて,本手法を広範囲に検証することにより,漫画のキャラクターを一貫した同定において,その有効性を示す。
論文参考訳（メタデータ） (2023-08-17T16:48:41Z)
Character-Centric Story Visualization via Visual Planning and Token Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文参考訳（メタデータ） (2022-10-16T06:50:39Z)
Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文参考訳（メタデータ） (2022-07-31T14:11:05Z)
CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image Denoising [10.53596428004378]
本稿では,グリフ融合とアテンション機構に基づく新しいフレームワーク,すなわちCharFormerを導入し,文字画像の正確な復元を行う。既存のフレームワークとは異なり、CharFormerは追加情報をキャプチャし、バックボーンを飾るイメージにそれを注入する並列ターゲットタスクを導入している。我々は注目に基づくネットワークをグローバルな特徴相互作用に利用し、視覚障害者の認知と聴覚障害者のパフォーマンス向上に役立てる。
論文参考訳（メタデータ） (2022-07-16T01:11:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。