論文の概要: OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
- arxiv url: http://arxiv.org/abs/2505.18445v1
- Date: Sat, 24 May 2025 01:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.426562
- Title: OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
- Title(参考訳): OmniConsistency: Paired Stylizationデータからスタイル非依存の一貫性を学ぶ
- Authors: Yiren Song, Cheng Liu, Mike Zheng Shou,
- Abstract要約: 大規模拡散変換器(DiT)を利用した汎用一貫性プラグインであるbftextConsistency OmniConsistencyを提案する。
実験により、OmniConsistencyは視覚的コヒーレンスと美的品質を著しく向上させ、商用の最先端モデルであるGPT-4oに匹敵する性能を達成することが示された。
- 参考スコア(独自算出の注目度): 20.96801850521772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have advanced image stylization significantly, yet two core challenges persist: (1) maintaining consistent stylization in complex scenes, particularly identity, composition, and fine details, and (2) preventing style degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional stylization consistency highlights the performance gap between open-source methods and proprietary models. To bridge this gap, we propose \textbf{OmniConsistency}, a universal consistency plugin leveraging large-scale Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context consistency learning framework trained on aligned image pairs for robust generalization; (2) a two-stage progressive learning strategy decoupling style learning from consistency preservation to mitigate style degradation; and (3) a fully plug-and-play design compatible with arbitrary style LoRAs under the Flux framework. Extensive experiments show that OmniConsistency significantly enhances visual coherence and aesthetic quality, achieving performance comparable to commercial state-of-the-art model GPT-4o.
- Abstract(参考訳): 拡散モデルは画像スタイリゼーションを著しく向上させたが,(1)複雑なシーン,特にアイデンティティ,構成,細部において一貫したスタイリゼーションを維持すること,(2)スタイルのLoRAを用いたイメージ・ツー・イメージパイプラインのスタイル劣化を防止すること,の2つの課題が続いている。
GPT-4oの例外的なスタイリゼーション一貫性は、オープンソースメソッドとプロプライエタリモデルの間のパフォーマンスギャップを浮き彫りにしている。
このギャップを埋めるために,大規模な拡散変換器(DiT)を活用した統一整合性プラグインである‘textbf{OmniConsistency} を提案する。
OmniConsistencyは,(1)コンテクスト内での一貫性学習フレームワークであり,(2)一貫性の維持からスタイル劣化を緩和する2段階のプログレッシブ学習戦略,(3)Fluxフレームワークの下で任意のスタイルのLoRAと互換性のある完全なプラグアンドプレイ設計である。
広汎な実験により,OmniConsistencyは視覚的コヒーレンスと審美的品質を著しく向上し,商業的最先端モデルGPT-4oに匹敵する性能を実現している。
関連論文リスト
- A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model [11.426771898890998]
本稿では,スケールワイド自己回帰モデルを利用した学習自由なスタイル整列画像生成手法を提案する。
提案手法は競合するアプローチに匹敵する品質を示し,スタイルアライメントを大幅に改善し,高速モデルよりも6倍高速な推論速度を実現する。
論文 参考訳(メタデータ) (2025-04-08T15:39:25Z) - AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models [4.364797586362505]
AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。
本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。
また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
論文 参考訳(メタデータ) (2025-03-10T13:28:36Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Deformable One-shot Face Stylization via DINO Semantic Guidance [12.771707124161665]
本稿では、外観と構造を同時に考慮したワンショット顔スタイリングの問題に対処する。
従来の単一イメージスタイルの参照から切り離された変形認識顔のスタイリングを探索し、代わりにリアルスタイルのイメージペアを選択する。
論文 参考訳(メタデータ) (2024-03-01T11:30:55Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。