論文の概要: StyleAR: Customizing Multimodal Autoregressive Model for Style-Aligned Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.19874v1
- Date: Mon, 26 May 2025 12:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.403782
- Title: StyleAR: Customizing Multimodal Autoregressive Model for Style-Aligned Text-to-Image Generation
- Title(参考訳): StyleAR:スタイルアライズされたテキスト-画像生成のためのマルチモーダル自己回帰モデル
- Authors: Yi Wu, Lingting Zhu, Shengju Qian, Lei Liu, Wandi Qiao, Lequan Yu, Bin Li,
- Abstract要約: マルチモーダル自己回帰(AR)モデルは、様々な領域で例外的な機能を示している。
スタイルアライメント生成には参照スタイルのイメージとプロンプトが必要である。
提案するARモデルと特別に設計されたデータキュレーション手法を組み合わせた,革新的なアプローチであるStyleARを提案する。
- 参考スコア(独自算出の注目度): 24.588779332021137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current research landscape, multimodal autoregressive (AR) models have shown exceptional capabilities across various domains, including visual understanding and generation. However, complex tasks such as style-aligned text-to-image generation present significant challenges, particularly in data acquisition. In analogy to instruction-following tuning for image editing of AR models, style-aligned generation requires a reference style image and prompt, resulting in a text-image-to-image triplet where the output shares the style and semantics of the input. However, acquiring large volumes of such triplet data with specific styles is considerably more challenging than obtaining conventional text-to-image data used for training generative models. To address this issue, we propose StyleAR, an innovative approach that combines a specially designed data curation method with our proposed AR models to effectively utilize text-to-image binary data for style-aligned text-to-image generation. Our method synthesizes target stylized data using a reference style image and prompt, but only incorporates the target stylized image as the image modality to create high-quality binary data. To facilitate binary data training, we introduce a CLIP image encoder with a perceiver resampler that translates the image input into style tokens aligned with multimodal tokens in AR models and implement a style-enhanced token technique to prevent content leakage which is a common issue in previous work. Furthermore, we mix raw images drawn from large-scale text-image datasets with stylized images to enhance StyleAR's ability to extract richer stylistic features and ensure style consistency. Extensive qualitative and quantitative experiments demonstrate our superior performance.
- Abstract(参考訳): 現在の研究ランドスケープでは、マルチモーダル自己回帰(AR)モデルが視覚的理解や生成を含む様々な領域で例外的な機能を示している。
しかし、スタイル整列テキスト・画像生成のような複雑なタスクは、特にデータ取得において大きな課題をもたらしている。
ARモデルの画像編集のための命令追従チューニングと類似して、スタイル整列生成には参照スタイルイメージとプロンプトが必要であるため、出力が入力のスタイルとセマンティクスを共有するテキスト-イメージ-イメージ三重項が生成される。
しかし、そのような三重項データを特定のスタイルで大量に取得することは、生成モデルの訓練に使用される従来のテキスト・ツー・イメージデータを得るよりも、かなり難しい。
この問題に対処するために、我々はスタイル整合型テキスト・ツー・イメージ生成にテキスト・ツー・イメージデータを有効に活用するために、特別に設計されたデータキュレーション手法と提案したARモデルを組み合わせた革新的なアプローチであるStyleARを提案する。
提案手法は、参照スタイルの画像とプロンプトを用いてターゲットのスタイル化されたデータを合成するが、ターゲットのスタイル化された画像を画像のモダリティとして組み込んで高品質なバイナリデータを生成する。
バイナリデータトレーニングを容易にするために,CLIPイメージエンコーダを導入し,画像入力をARモデルのマルチモーダルトークンに整合したスタイルトークンに変換する。
さらに,大規模テキスト画像データセットから抽出した生画像とスタイリング画像とを混合し,よりリッチなスタイリスティックな特徴を抽出し,スタイル整合性を確保する。
定性的かつ定量的な実験は、我々の優れた性能を示している。
関連論文リスト
- Rethink Arbitrary Style Transfer with Transformer and Contrastive Learning [11.900404048019594]
本稿では,スタイリング画像の品質向上のための革新的手法を提案する。
まず、コンテンツとスタイルの特徴の整合性を改善する手法であるスタイル一貫性インスタンス正規化(SCIN)を提案する。
さらに,様々なスタイル間の関係を理解するために,インスタンスベースのコントラスト学習(ICL)アプローチを開発した。
論文 参考訳(メタデータ) (2024-04-21T08:52:22Z) - StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。
また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:43:23Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。