論文の概要: OmniStyle2: Scalable and High Quality Artistic Style Transfer Data Generation via Destylization
- arxiv url: http://arxiv.org/abs/2509.05970v1
- Date: Sun, 07 Sep 2025 08:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.797913
- Title: OmniStyle2: Scalable and High Quality Artistic Style Transfer Data Generation via Destylization
- Title(参考訳): OmniStyle2:デスティライゼーションによるスケーラブルで高品質なアートスタイル転送データ生成
- Authors: Ye Wang, Zili Yi, Yibo Zhang, Peng Zheng, Xuping Xie, Jiang Lin, Yilin Wang, Rui Ma,
- Abstract要約: OmniStyle2は、データ問題として表現することで、アートスタイルの転送に新しいアプローチを導入している。
我々の重要な洞察はデスティリゼーションであり、アートワークからスタイリスティックな要素を取り除き、自然でスタイルのない要素を復元することでスタイル転送を反転させる。
これにより、DST-100Kは、実際の芸術スタイルをその基盤となるコンテンツと整合させることで、真の監視信号を提供する大規模なデータセットとなる。
- 参考スコア(独自算出の注目度): 25.208769324479192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: OmniStyle2 introduces a novel approach to artistic style transfer by reframing it as a data problem. Our key insight is destylization, reversing style transfer by removing stylistic elements from artworks to recover natural, style-free counterparts. This yields DST-100K, a large-scale dataset that provides authentic supervision signals by aligning real artistic styles with their underlying content. To build DST-100K, we develop (1) DST, a text-guided destylization model that reconstructs stylefree content, and (2) DST-Filter, a multi-stage evaluation model that employs Chain-of-Thought reasoning to automatically discard low-quality pairs while ensuring content fidelity and style accuracy. Leveraging DST-100K, we train OmniStyle2, a simple feed-forward model based on FLUX.1-dev. Despite its simplicity, OmniStyle2 consistently surpasses state-of-the-art methods across both qualitative and quantitative benchmarks. Our results demonstrate that scalable data generation via destylization provides a reliable supervision paradigm, overcoming the fundamental challenge posed by the lack of ground-truth data in artistic style transfer.
- Abstract(参考訳): OmniStyle2は、データ問題として表現することで、アートスタイルの転送に新しいアプローチを導入している。
我々の重要な洞察はデスティリゼーションであり、アートワークからスタイリスティックな要素を取り除き、自然でスタイルのない要素を復元することでスタイル転送を反転させる。
これにより、DST-100Kは、実際の芸術スタイルをその基盤となるコンテンツと整合させることで、真の監視信号を提供する大規模なデータセットとなる。
DST-100Kを構築するために,(1)スタイルのないコンテンツを再構成するテキスト誘導型デスティル化モデルであるDSTと(2)Chain-of-Thought推論を用いた多段階評価モデルであるDST-Filterを開発した。
DST-100Kを活用して、FLUX.1-devに基づいた単純なフィードフォワードモデルであるOmniStyle2を訓練する。
その単純さにもかかわらず、OmniStyle2は定性ベンチマークと定量的ベンチマークの両方で最先端の手法を一貫して上回っている。
以上の結果から,デスティリゼーションによるスケーラブルなデータ生成は,芸術的スタイルの転送における地味データの欠如による根本的な課題を克服し,信頼性の高い監視パラダイムを提供することが示された。
関連論文リスト
- OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data [20.96801850521772]
大規模拡散変換器(DiT)を利用した汎用一貫性プラグインであるbftextConsistency OmniConsistencyを提案する。
実験により、OmniConsistencyは視覚的コヒーレンスと美的品質を著しく向上させ、商用の最先端モデルであるGPT-4oに匹敵する性能を達成することが示された。
論文 参考訳(メタデータ) (2025-05-24T01:00:20Z) - OmniStyle: Filtering High Quality Style Transfer Data at Scale [22.88223293456666]
OmniStyle-1Mは,100万以上のコンテンツスタイルスティル化画像三重項からなる大規模ペア型転送データセットである。
我々は,OmniStyle-1Mが教師付きトレーニングを通じて,効率よくスケーラブルなスタイル転送モデルを実現するだけでなく,ターゲットのスタイリゼーションを正確に制御できることを示す。
論文 参考訳(メタデータ) (2025-05-20T07:29:21Z) - IntroStyle: Training-Free Introspective Style Attribution using Diffusion Features [89.95303251220734]
スタイル帰属問題を解決するための学習自由フレームワークを提案する。
IntroStyleはスタイル属性の最先端モデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-19T01:21:23Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - DiffArtist: Towards Structure and Appearance Controllable Image Stylization [35.59051707152096]
textbfDiffArtistは、構造と外観スタイルの強さの両方をきめ細かな同時制御する最初の2Dスタイリング方法である。
解析の結果,DiffArtistは最先端の手法と比較して,スタイルの忠実さと二重制御性が優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - STEER: Unified Style Transfer with Expert Reinforcement [71.3995732115262]
STEER: Unified Style Transfer with Expert Reinforcementは、スタイル転送のための限られた並列データという課題を克服するために開発された、統一されたフレームワークである。
STEERは堅牢で、ドメイン外のデータでスタイル転送機能を維持し、様々なスタイルでほぼすべてのベースラインを超越している。
論文 参考訳(メタデータ) (2023-11-13T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。