論文の概要: QwenStyle: Content-Preserving Style Transfer with Qwen-Image-Edit
- arxiv url: http://arxiv.org/abs/2601.06202v1
- Date: Thu, 08 Jan 2026 10:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.677071
- Title: QwenStyle: Content-Preserving Style Transfer with Qwen-Image-Edit
- Title(参考訳): QwenStyle: Qwen-Image-Editによるコンテンツ保存スタイル転送
- Authors: Shiwen Zhang, Haibin Huang, Chi Zhang, Xuelong Li,
- Abstract要約: 本稿では,Qwen-Image-Editでトレーニングされた最初のコンテンツ保存スタイル転送モデルを提案する。
QwenStyle V1は、スタイルの類似性、コンテントの一貫性、美的品質の3つのコアメトリクスで、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 54.11909509184315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content-Preserving Style transfer, given content and style references, remains challenging for Diffusion Transformers (DiTs) due to its internal entangled content and style features. In this technical report, we propose the first content-preserving style transfer model trained on Qwen-Image-Edit, which activates Qwen-Image-Edit's strong content preservation and style customization capability. We collected and filtered high quality data of limited specific styles and synthesized triplets with thousands categories of style images in-the-wild. We introduce the Curriculum Continual Learning framework to train QwenStyle with such mixture of clean and noisy triplets, which enables QwenStyle to generalize to unseen styles without degradation of the precise content preservation capability. Our QwenStyle V1 achieves state-of-the-art performance in three core metrics: style similarity, content consistency, and aesthetic quality.
- Abstract(参考訳): コンテンツ保存スタイル転送は、コンテンツとスタイル参照が与えられたとしても、内部の絡み合ったコンテンツとスタイルの特徴のため、Diffusion Transformers (DiT) では依然として困難である。
本稿では,Qwen-Image-Editの強いコンテンツ保存とスタイルカスタマイズ機能を活性化する,Qwen-Image-Editでトレーニングされた最初のコンテンツ保存スタイル転送モデルを提案する。
我々は,限られた特定のスタイルの高品質なデータを収集・フィルタリングし,数千のカテゴリのスタイル画像で三重項を合成した。
そこで我々は,QwenStyleをクリーンでノイズの多い三つ組で訓練するために,Curriculum Continual Learningフレームワークを導入する。
我々のQwenStyle V1は、スタイルの類似性、コンテントの一貫性、美的品質の3つのコアメトリクスで最先端のパフォーマンスを実現しています。
関連論文リスト
- Inversion-Free Video Style Transfer with Trajectory Reset Attention Control and Content-Style Bridging [5.501345898413532]
我々は,高品質なスタイル転送を可能にする新しい手法であるTRAC(Trajectory Reset Attention Control)を導入する。
TRACは、遅延軌跡をリセットし、注意制御を強制することにより、コンテントの一貫性を高める。
画像とビデオの両方の転送に対して,安定的でフレキシブルで効率的なソリューションを提供する,チューニング不要なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:18:43Z) - InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文 参考訳(メタデータ) (2024-06-30T18:05:33Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - InfoStyler: Disentanglement Information Bottleneck for Artistic Style
Transfer [22.29381866838179]
アートスタイルの転送は、アートワークのスタイルを、オリジナル全体のコンテンツを維持しながら写真に転送することを目的としている。
本稿では,コンテンツとスタイル表現の両面において,最小限の情報を取得するために,InfoStylerという新しい情報分離手法を提案する。
論文 参考訳(メタデータ) (2023-07-30T13:38:56Z) - StyleStegan: Leak-free Style Transfer Based on Feature Steganography [19.153040728118285]
既存のスタイル転送方式は 重大なコンテンツ漏洩に悩まされています
特徴ステガノグラフィーに基づくリークフリーなスタイル転送手法を提案する。
その結果、StyleSteganは、シリアルおよび可逆的なスタイル転送タスクにおいて、コンテンツのリーク問題を緩和することに成功した。
論文 参考訳(メタデータ) (2023-07-01T05:00:19Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Enhancing Content Preservation in Text Style Transfer Using Reverse
Attention and Conditional Layer Normalization [15.444996697848266]
一般的なアプローチは、ある文をスタイルのないコンテンツ表現にマッピングし、その内容表現はターゲットスタイルのデコーダに供給される。
従来のフィルタリング方式では、トークンレベルでのスタイルによるトークンを完全に取り除いたため、コンテンツ情報が失われる。
本稿では、各トークンのスタイル情報を逆の注意で暗黙的に取り除き、コンテンツを保持することによってコンテンツ保存を強化することを提案する。
論文 参考訳(メタデータ) (2021-08-01T12:54:46Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。