論文の概要: LouvreSAE: Sparse Autoencoders for Interpretable and Controllable Style Transfer
- arxiv url: http://arxiv.org/abs/2512.18930v1
- Date: Mon, 22 Dec 2025 00:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.560137
- Title: LouvreSAE: Sparse Autoencoders for Interpretable and Controllable Style Transfer
- Title(参考訳): LouvreSAE:解釈および制御可能なスタイル転送のためのスパースオートエンコーダ
- Authors: Raina Panda, Daniel Fein, Arpita Singhal, Mark Fiore, Maneesh Agrawala, Matyas Bohacek,
- Abstract要約: 本稿では,芸術様式を表現・伝達するための訓練的,推論的,解釈可能な手法を提案する。
提案手法は,生成画像モデルの潜在埋め込みの上に,アート固有のスパースオートエンコーダ(SAE)を利用する。
LouvreSAEと呼ばれ、モデル更新や最適化なしにスタイル転送を可能にする、コンパクトで分解可能なステアリングベクタというスタイルプロファイルの構築に使用しています。
- 参考スコア(独自算出の注目度): 17.030619483751508
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artistic style transfer in generative models remains a significant challenge, as existing methods often introduce style only via model fine-tuning, additional adapters, or prompt engineering, all of which can be computationally expensive and may still entangle style with subject matter. In this paper, we introduce a training- and inference-light, interpretable method for representing and transferring artistic style. Our approach leverages an art-specific Sparse Autoencoder (SAE) on top of latent embeddings of generative image models. Trained on artistic data, our SAE learns an emergent, largely disentangled set of stylistic and compositional concepts, corresponding to style-related elements pertaining brushwork, texture, and color palette, as well as semantic and structural concepts. We call it LouvreSAE and use it to construct style profiles: compact, decomposable steering vectors that enable style transfer without any model updates or optimization. Unlike prior concept-based style transfer methods, our method requires no fine-tuning, no LoRA training, and no additional inference passes, enabling direct steering of artistic styles from only a few reference images. We validate our method on ArtBench10, achieving or surpassing existing methods on style evaluations (VGG Style Loss and CLIP Score Style) while being 1.7-20x faster and, critically, interpretable.
- Abstract(参考訳): 既存の手法は、モデルファインチューニング、追加のアダプタ、あるいはプロンプトエンジニアリングを通じてのみスタイルを導入し、これらは全て計算コストが高く、なおも主題と絡み合うことがあるため、生成モデルにおけるアーティスティックなスタイル転送は重要な課題である。
本稿では,芸術的スタイルを表現・伝達するための訓練的,推論的,解釈可能な手法を提案する。
提案手法は,生成画像モデルの潜在埋め込みの上に,アート固有のスパースオートエンコーダ(SAE)を利用する。
我々のSAEは、芸術的データに基づいて、筆画、テクスチャ、カラーパレットに関連するスタイルに関連する要素と、セマンティック、構造的な概念に対応する、創発的で、大きく散らばった様式的、構成的な概念のセットを学びます。
LouvreSAEと呼ばれ、モデル更新や最適化なしにスタイル転送を可能にする、コンパクトで分解可能なステアリングベクタというスタイルプロファイルの構築に使用しています。
従来の概念に基づくスタイル転送法とは異なり,本手法では微調整もLoRAトレーニングも追加の推論パスも必要とせず,ごく少数の参照画像から芸術的スタイルを直接操ることが可能であった。
我々はArtBench10の手法を検証し、既存のスタイル評価手法(VGGスタイル損失とCLIPスコアスタイル)を1.7~20倍高速で、かつ、批判的に解釈可能であることを確認した。
関連論文リスト
- One-shot Embroidery Customization via Contrastive LoRA Modulation [20.463441212598273]
本稿では,単一参照画像で微細なスタイルとコンテンツ特徴を分離する,新しいコントラスト学習フレームワークを提案する。
細粒度スタイル転送の手法を評価するため,刺青カスタマイズのためのベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-23T12:58:15Z) - Pluggable Style Representation Learning for Multi-Style Transfer [41.09041735653436]
スタイルモデリングと転送を分離してスタイル転送フレームワークを開発する。
スタイルモデリングでは,スタイル情報をコンパクトな表現に符号化するスタイル表現学習方式を提案する。
スタイル転送のために,プラガブルなスタイル表現を用いて多様なスタイルに適応するスタイル認識型マルチスタイル転送ネットワーク(SaMST)を開発した。
論文 参考訳(メタデータ) (2025-03-26T09:44:40Z) - ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and
Implicit Style Prompt Bank [9.99530386586636]
アートスタイルの転送は、学習したアートスタイルでコンテンツイメージを再描画することを目的としている。
既存のスタイル転送手法は、小さなモデルベースアプローチと、事前訓練された大規模モデルベースアプローチの2つのカテゴリに分けられる。
本研究では,高度にリアルなスタイライズされた画像を生成するために,アートバンクという新しいスタイル転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T05:53:40Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。
画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文 参考訳(メタデータ) (2022-11-23T18:44:25Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。