論文の概要: OmniStyle: Filtering High Quality Style Transfer Data at Scale
- arxiv url: http://arxiv.org/abs/2505.14028v1
- Date: Tue, 20 May 2025 07:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.85857
- Title: OmniStyle: Filtering High Quality Style Transfer Data at Scale
- Title(参考訳): OmniStyle: 高品質な転送データを大規模にフィルタリングする
- Authors: Ye Wang, Ruiqi Liu, Jiang Lin, Fei Liu, Zili Yi, Yilin Wang, Rui Ma,
- Abstract要約: OmniStyle-1Mは,100万以上のコンテンツスタイルスティル化画像三重項からなる大規模ペア型転送データセットである。
我々は,OmniStyle-1Mが教師付きトレーニングを通じて,効率よくスケーラブルなスタイル転送モデルを実現するだけでなく,ターゲットのスタイリゼーションを正確に制御できることを示す。
- 参考スコア(独自算出の注目度): 22.88223293456666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce OmniStyle-1M, a large-scale paired style transfer dataset comprising over one million content-style-stylized image triplets across 1,000 diverse style categories, each enhanced with textual descriptions and instruction prompts. We show that OmniStyle-1M can not only enable efficient and scalable of style transfer models through supervised training but also facilitate precise control over target stylization. Especially, to ensure the quality of the dataset, we introduce OmniFilter, a comprehensive style transfer quality assessment framework, which filters high-quality triplets based on content preservation, style consistency, and aesthetic appeal. Building upon this foundation, we propose OmniStyle, a framework based on the Diffusion Transformer (DiT) architecture designed for high-quality and efficient style transfer. This framework supports both instruction-guided and image-guided style transfer, generating high resolution outputs with exceptional detail. Extensive qualitative and quantitative evaluations demonstrate OmniStyle's superior performance compared to existing approaches, highlighting its efficiency and versatility. OmniStyle-1M and its accompanying methodologies provide a significant contribution to advancing high-quality style transfer, offering a valuable resource for the research community.
- Abstract(参考訳): 本稿では,1000の多様なスタイルカテゴリにまたがる100万以上のコンテントスタイルのイメージトリプレットからなる大規模ペア型トランスファーデータセットであるOmniStyle-1Mについて紹介する。
我々は,OmniStyle-1Mが教師付きトレーニングを通じて,効率よくスケーラブルなスタイル転送モデルを実現するだけでなく,ターゲットのスタイリゼーションを正確に制御できることを示す。
特に,データセットの品質を確保するために,コンテンツ保存,スタイル整合性,美的魅力に基づいて高品質な三重項をフィルタリングする総合的なスタイル伝達品質評価フレームワークであるOmniFilterを紹介する。
この基盤の上に構築されたOmniStyleは,高品質で効率的なスタイル転送を実現するために設計されたDiffusion Transformer (DiT)アーキテクチャに基づくフレームワークである。
このフレームワークは命令誘導と画像誘導の両方のスタイル転送をサポートし、例外的な詳細で高解像度の出力を生成する。
大規模な質的および定量的評価は、OmniStyleの既存のアプローチよりも優れた性能を示し、その効率性と汎用性を強調している。
OmniStyle-1Mとそれに付随する方法論は、高品質なスタイルの転送を推進し、研究コミュニティにとって貴重な資源を提供する。
関連論文リスト
- Pluggable Style Representation Learning for Multi-Style Transfer [41.09041735653436]
スタイルモデリングと転送を分離してスタイル転送フレームワークを開発する。
スタイルモデリングでは,スタイル情報をコンパクトな表現に符号化するスタイル表現学習方式を提案する。
スタイル転送のために,プラガブルなスタイル表現を用いて多様なスタイルに適応するスタイル認識型マルチスタイル転送ネットワーク(SaMST)を開発した。
論文 参考訳(メタデータ) (2025-03-26T09:44:40Z) - Style Transfer Dataset: What Makes A Good Stylization? [0.0]
画像スタイルの転送を推し進める目的で,新しいデータセットを提案する。
データセットは、さまざまなサイズのコンテンツとスタイルのイメージをカバーし、1-10スケールの3つのアノテーションによって手作業で評価されるスタイリングを含んでいる。
論文 参考訳(メタデータ) (2024-12-22T19:13:15Z) - StyleShot: A Snapshot on Any Style [20.41380860802149]
テスト時間チューニングを伴わない汎用的なスタイル転送には,優れたスタイル表現が不可欠であることを示す。
スタイル認識型エンコーダと、StyleGalleryと呼ばれるよく編成されたスタイルデータセットを構築することで、これを実現する。
当社のアプローチであるStyleShotは,テストタイムチューニングを必要とせずに,さまざまなスタイルを模倣する上で,シンプルかつ効果的なものです。
論文 参考訳(メタデータ) (2024-07-01T16:05:18Z) - Rethink Arbitrary Style Transfer with Transformer and Contrastive Learning [11.900404048019594]
本稿では,スタイリング画像の品質向上のための革新的手法を提案する。
まず、コンテンツとスタイルの特徴の整合性を改善する手法であるスタイル一貫性インスタンス正規化(SCIN)を提案する。
さらに,様々なスタイル間の関係を理解するために,インスタンスベースのコントラスト学習(ICL)アプローチを開発した。
論文 参考訳(メタデータ) (2024-04-21T08:52:22Z) - STEER: Unified Style Transfer with Expert Reinforcement [71.3995732115262]
STEER: Unified Style Transfer with Expert Reinforcementは、スタイル転送のための限られた並列データという課題を克服するために開発された、統一されたフレームワークである。
STEERは堅牢で、ドメイン外のデータでスタイル転送機能を維持し、様々なスタイルでほぼすべてのベースラインを超越している。
論文 参考訳(メタデータ) (2023-11-13T09:02:30Z) - MSSRNet: Manipulating Sequential Style Representation for Unsupervised
Text Style Transfer [82.37710853235535]
教師なしのテキストスタイル転送タスクは、メインのコンテンツを保持しながらテキストをターゲットのスタイルに書き換えることを目的としている。
従来の方法では、固定サイズのベクトルを使ってテキストスタイルを規制するが、個々のトークンのスタイル強度を正確に伝達することは困難である。
提案手法は,テキスト中の各トークンに個々のスタイルベクトルを割り当てることでこの問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T13:12:29Z) - Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot
Artistic Style Transfer [83.1333306079676]
本稿では,スタイル転送に特化した新しいトランスフォーマーモデルであるemphMasterを考案する。
提案モデルでは, 異なるトランスフォーマー層が共通のパラメータ群を共有し, 1) パラメータの総数を減らし, (2) より堅牢なトレーニング収束をもたらし, (3) は容易にスタイリングの程度を制御できる。
実験では、ゼロショットと少数ショットスタイルの転送設定の両方でMasterの優位性を示す。
論文 参考訳(メタデータ) (2023-04-24T04:46:39Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。