論文の概要: A Training-Free Style-Personalization via Scale-wise Autoregressive Model
- arxiv url: http://arxiv.org/abs/2507.04482v1
- Date: Sun, 06 Jul 2025 17:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.204591
- Title: A Training-Free Style-Personalization via Scale-wise Autoregressive Model
- Title(参考訳): スケールワイド自己回帰モデルによる学習自由なスタイルパーソナライゼーション
- Authors: Kyoungmin Lee, Jihun Park, Jongmin Gim, Wonhyeok Choi, Kyumin Hwang, Jaeyeul Kim, Sunghoon Im,
- Abstract要約: 本稿では、推論中のコンテンツやスタイル情報を制御するスタイルパーソナライズド画像生成のための学習自由フレームワークを提案する。
提案手法では,対応するテキストプロンプトで案内されるコンテンツ,スタイル,ジェネレーションの3経路設計を用いる。
- 参考スコア(独自算出の注目度): 11.918925320254534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a training-free framework for style-personalized image generation that controls content and style information during inference using a scale-wise autoregressive model. Our method employs a three-path design--content, style, and generation--each guided by a corresponding text prompt, enabling flexible and efficient control over image semantics without any additional training. A central contribution of this work is a step-wise and attention-wise intervention analysis. Through systematic prompt and feature injection, we find that early-to-middle generation steps play a pivotal role in shaping both content and style, and that query features predominantly encode content-specific information. Guided by these insights, we introduce two targeted mechanisms: Key Stage Attention Sharing, which aligns content and style during the semantically critical steps, and Adaptive Query Sharing, which reinforces content semantics in later steps through similarity-aware query blending. Extensive experiments demonstrate that our method achieves competitive style fidelity and prompt fidelity compared to fine-tuned baselines, while offering faster inference and greater deployment flexibility.
- Abstract(参考訳): 本稿では、大規模自己回帰モデルを用いて、推論中のコンテンツやスタイル情報を制御するスタイルパーソナライズド画像生成のための学習自由フレームワークを提案する。
提案手法では,対応するテキストプロンプトによって誘導される3つのパスの設計-コンテンツ,スタイル,生成-を用いて,追加のトレーニングを伴わずに画像意味論の柔軟かつ効率的な制御を可能にする。
この研究の中心的な貢献は、段階的かつ注意的介入分析である。
体系的なプロンプトと機能注入によって、コンテンツとスタイルの両方を形作る上で、早期から中途半端な生成ステップが重要な役割を担っており、クエリ機能は、主にコンテンツ固有の情報をエンコードしている。
これらの知見に導かれて、セマンティッククリティカルなステップでコンテンツとスタイルを整列するキーステージ注意共有(Key Stage Attention Sharing)と、コンテントセマンティクスを後続のステップで強化するアダプティブクエリ共有(Adaptive Query Sharing)という2つのメカニズムを紹介した。
大規模な実験により,提案手法はより高速な推論とデプロイメントの柔軟性を提供しながら,微調整されたベースラインと比較して,競争スタイルの忠実さと迅速な忠実度を実現することが実証された。
関連論文リスト
- A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model [11.426771898890998]
本稿では,スケールワイド自己回帰モデルを利用した学習自由なスタイル整列画像生成手法を提案する。
提案手法は競合するアプローチに匹敵する品質を示し,スタイルアライメントを大幅に改善し,高速モデルよりも6倍高速な推論速度を実現する。
論文 参考訳(メタデータ) (2025-04-08T15:39:25Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models [4.364797586362505]
AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。
本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。
また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
論文 参考訳(メタデータ) (2025-03-10T13:28:36Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - DiffArtist: Towards Structure and Appearance Controllable Image Stylization [19.5597806965592]
本稿では2次元画像の構造と外観の同時スタイリングについて包括的に研究する。
DiffArtistは、構造と外観の二重制御を可能にする最初のスタイリング手法である。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。