論文の概要: ConsiStyle: Style Diversity in Training-Free Consistent T2I Generation
- arxiv url: http://arxiv.org/abs/2505.20626v1
- Date: Tue, 27 May 2025 02:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.34423
- Title: ConsiStyle: Style Diversity in Training-Free Consistent T2I Generation
- Title(参考訳): ConsiStyle: トレーニング不要なT2I生成におけるスタイルの多様性
- Authors: Yohai Mazuz, Janna Bruner, Lior Wolf,
- Abstract要約: スタイルアライメントと主観的整合性を両立させるトレーニングフリー手法を提案する。
提案手法は,スタイルを主観的外観から効果的に分離し,テキスト整列画像の忠実な生成を可能にする。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-to-image models, consistent character generation is the task of achieving text alignment while maintaining the subject's appearance across different prompts. However, since style and appearance are often entangled, the existing methods struggle to preserve consistent subject characteristics while adhering to varying style prompts. Current approaches for consistent text-to-image generation typically rely on large-scale fine-tuning on curated image sets or per-subject optimization, which either fail to generalize across prompts or do not align well with textual descriptions. Meanwhile, training-free methods often fail to maintain subject consistency across different styles. In this work, we introduce a training-free method that achieves both style alignment and subject consistency. The attention matrices are manipulated such that Queries and Keys are obtained from the anchor image(s) that are used to define the subject, while the Values are imported from a parallel copy that is not subject-anchored. Additionally, cross-image components are added to the self-attention mechanism by expanding the Key and Value matrices. To do without shifting from the target style, we align the statistics of the Value matrices. As is demonstrated in a comprehensive battery of qualitative and quantitative experiments, our method effectively decouples style from subject appearance and enables faithful generation of text-aligned images with consistent characters across diverse styles.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルでは、一貫した文字生成は、異なるプロンプトにまたがって被験者の外観を維持しながらテキストアライメントを達成するタスクである。
しかし、スタイルや外観が絡み合っていることが多いため、既存の手法では、異なるスタイルのプロンプトに固執しながら、一貫した主題的特徴を維持するのに苦慮している。
現在の一貫したテキスト・ツー・イメージ生成のアプローチは、通常、キュレートされたイメージセットやオブジェクトごとの最適化を大規模に微調整することに依存しており、プロンプトをまたいだ一般化に失敗するか、あるいはテキスト記述とうまく一致しない。
一方、トレーニングなしのメソッドは、異なるスタイルで主題の一貫性を維持するのに失敗することが多い。
本研究では,スタイルアライメントと主観的整合性の両方を実現するトレーニングフリー手法を提案する。
注目行列は、被写体を定義するために使用されるアンカー画像から、クエリとキーが取得されるように操作され、その値が被写体アンコールされていない並列コピーからインポートされる。
さらに、キーとバリューの行列を拡張することで、自己注意機構にクロスイメージコンポーネントを追加します。
ターゲットのスタイルからシフトすることなく行うために、バリュー行列の統計を整列させます。
定性的かつ定量的な実験の総合的なバッテリで実証されているように、本手法は、スタイルを主観的外観から効果的に切り離し、多種多様なスタイルで一貫した文字によるテキスト整列画像の忠実な生成を可能にする。
関連論文リスト
- IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
IP-Prompterは、新しいトレーニング不要なTSI生成方法である。
参照イメージを生成モデルに統合することで、ユーザはシームレスに対象テーマを指定することができる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成など,多様な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。
また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:43:23Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - MSSRNet: Manipulating Sequential Style Representation for Unsupervised
Text Style Transfer [82.37710853235535]
教師なしのテキストスタイル転送タスクは、メインのコンテンツを保持しながらテキストをターゲットのスタイルに書き換えることを目的としている。
従来の方法では、固定サイズのベクトルを使ってテキストスタイルを規制するが、個々のトークンのスタイル強度を正確に伝達することは困難である。
提案手法は,テキスト中の各トークンに個々のスタイルベクトルを割り当てることでこの問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T13:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。