論文の概要: StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2604.21052v1
- Date: Wed, 22 Apr 2026 19:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.161279
- Title: StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling
- Title(参考訳): StyleVAR:視覚的自己回帰モデリングによる制御可能なイメージスタイル転送
- Authors: Liqi Jing, Dingming Zhang, Peinian Li, Lichen Zhu,
- Abstract要約: 学習された潜在空間における条件付き離散シーケンスモデルとしてスタイル転送を定式化する。
我々は、進化する対象表現が自身の歴史に沿うような混在したクロスアテンション機構を導入する。
Style VARは、Style Loss、Content Loss、LPIPS、SSIM、DreamSim、CLIPの類似性において一貫してAdaINベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We build on the Visual Autoregressive Modeling (VAR) framework and formulate style transfer as conditional discrete sequence modeling in a learned latent space. Images are decomposed into multi-scale representations and tokenized into discrete codes by a VQ-VAE; a transformer then autoregressively models the distribution of target tokens conditioned on style and content tokens. To inject style and content information, we introduce a blended cross-attention mechanism in which the evolving target representation attends to its own history, while style and content features act as queries that decide which aspects of this history to emphasize. A scale-dependent blending coefficient controls the relative influence of style and content at each stage, encouraging the synthesized representation to align with both the content structure and the style texture without breaking the autoregressive continuity of VAR. We train StyleVAR in two stages from a pretrained VAR checkpoint: supervised fine-tuning on a large triplet dataset of content--style--target images, followed by reinforcement fine-tuning with Group Relative Policy Optimization (GRPO) against a DreamSim-based perceptual reward, with per-action normalization weighting to rebalance credit across VAR's multi-scale hierarchy. Across three benchmarks spanning in-, near-, and out-of-distribution regimes, StyleVAR consistently outperforms an AdaIN baseline on Style Loss, Content Loss, LPIPS, SSIM, DreamSim, and CLIP similarity, and the GRPO stage yields further gains over the SFT checkpoint, most notably on the reward-aligned perceptual metrics. Qualitatively, the method transfers texture while maintaining semantic structure, especially for landscapes and architectural scenes, while a generalization gap on internet images and difficulty with human faces highlight the need for better content diversity and stronger structural priors.
- Abstract(参考訳): 我々は,Visual Autoregressive Modeling (VAR) フレームワークを構築し,学習された潜在空間における条件付き離散シーケンスモデリングとしてスタイル転送を定式化する。
画像はマルチスケールの表現に分解され、VQ-VAEによって離散コードにトークン化される。
スタイルとコンテンツ情報をインジェクトするために,進化する対象表現が自身の歴史に付随するような混在したクロスアテンション機構を導入し,スタイルとコンテンツ機能は,この歴史のどの側面を強調するかを決定するクエリとして機能する。
スケール依存ブレンディング係数は、各ステージにおけるスタイルと内容の相対的な影響を制御し、合成された表現は、VARの自己回帰連続性を損なうことなく、内容構造とスタイルテクスチャの両方に整合するように促す。
トレーニング済みのVARチェックポイントから,StyleVARを2段階に分けてトレーニングする: コンテンツスタイルのターゲット画像のトリプルトデータセットの教師付き微調整,さらにDreamSimベースの知覚報酬に対するグループ相対ポリシー最適化(GRPO)による強化微調整,VARのマルチスケール階層間でのクレジットのバランスの緩和を目的とした,アクションごとの正規化重み付け。
StyleVARは、インイン、ニア、アウト・オブ・ディストリビューションの3つのベンチマークの中で、Style Loss、Content Loss、LPIPS、SSIM、DreamSim、CLIPの3つのベースラインを一貫して上回り、GRPOステージはSFTチェックポイントよりもさらに向上している。
質的に言えば、テクスチャの伝達は、特に風景や建築シーンにおいて、セマンティックな構造を維持しつつ、テクスチャを伝達するが、インターネットイメージの一般化のギャップと人間の顔の難しさは、より良いコンテンツ多様性とより強い構造的先行性の必要性を浮き彫りにしている。
関連論文リスト
- SAGE: Style-Adaptive Generalization for Privacy-Constrained Semantic Segmentation Across Domains [13.393232074517387]
textbfSAGEは、プライバシー制約下での凍結モデルの一般化を改善する。
まず、ソースドメインの多様なスタイル表現を構築するためにスタイル転送を利用する。
そして、モデルが各入力の視覚的コンテキストに応じてこれらのスタイルキューを適応的に融合し、動的プロンプトを形成する。
論文 参考訳(メタデータ) (2025-12-02T03:20:22Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。
NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。
細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:59:03Z) - CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models [5.821094777538556]
コンテンツスタイル分解として知られる単一の画像からコンテンツとスタイルを分離することで、抽出したコンテンツの再テクスチャ化と抽出したスタイルのスタイル化が可能になる。
Visual Autoregressive Modelingは、次世代の予測パラダイムで有望な代替手段として登場した。
論文 参考訳(メタデータ) (2025-07-18T14:45:48Z) - A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。