論文の概要: A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
- arxiv url: http://arxiv.org/abs/2511.10555v3
- Date: Tue, 18 Nov 2025 03:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.590261
- Title: A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
- Title(参考訳): A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space (英語)
- Authors: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang,
- Abstract要約: 本稿では,数値的なスタイルのみを前提とした,新しい一貫した視覚的スタイルのイメージを生成する,コード・ツー・スタイル画像生成の新しいタスクを紹介する。
CoTyleはこのタスクのための最初のオープンソースメソッドである。
- 参考スコア(独自算出の注目度): 20.540590525933535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.
- Abstract(参考訳): 革新的視覚スタイル化は芸術的創造の基盤であるが、新しい一貫した視覚スタイルを生み出すことは重要な課題である。
既存の生成的アプローチは、典型的には長文のプロンプト、参照画像、パラメータ効率の良い微調整に頼っているが、スタイルの一貫性、限定的な創造性、複雑なスタイル表現に苦しむことが多い。
本稿では,新しいタスクであるCode-to-style画像生成を導入し,数値的なスタイルのみを条件とした,新しい一貫した視覚的スタイルのイメージを生成することで,あるスタイルが1つの数値コードに価値があることを確認した。
これまでのところ、この分野は産業(たとえばMidjourney)によってのみ探索されており、学術コミュニティによるオープンソースの研究は行われていない。
このギャップを埋めるために,このタスクのための最初のオープンソース手法であるCoTyleを提案する。
具体的には、まず画像の集合から個別のスタイルのコードブックを訓練し、スタイルの埋め込みを抽出する。
これらの埋め込みは、スタイリスティックな画像を生成するためのテキスト・ツー・イメージ拡散モデル(T2I-DM)の条件として機能する。
その後、離散的なスタイルの埋め込みで自己回帰的なスタイルジェネレータを訓練し、その分布をモデル化し、新しいスタイルの埋め込みを合成する。
推論中、数値的なスタイルコードをスタイルジェネレータによる独自のスタイル埋め込みにマッピングし、この埋め込みはT2I-DMをガイドして対応するスタイルの画像を生成する。
既存の手法とは異なり,本手法は,最小限の入力から再現可能なスタイルの広大な空間を解放する,非並列な単純さと多様性を提供する。
大規模な実験により、CoTyleは、数値コードを効果的にスタイルコントローラに変換し、スタイルが1つのコードに価値があることを示す。
関連論文リスト
- StyleShot: A Snapshot on Any Style [20.41380860802149]
テスト時間チューニングを伴わない汎用的なスタイル転送には,優れたスタイル表現が不可欠であることを示す。
スタイル認識型エンコーダと、StyleGalleryと呼ばれるよく編成されたスタイルデータセットを構築することで、これを実現する。
当社のアプローチであるStyleShotは,テストタイムチューニングを必要とせずに,さまざまなスタイルを模倣する上で,シンプルかつ効果的なものです。
論文 参考訳(メタデータ) (2024-07-01T16:05:18Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。