論文の概要: HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.05870v1
- Date: Thu, 11 Jan 2024 12:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 15:03:52.649122
- Title: HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models
- Title(参考訳): HiCAST: 適応型拡散モデルを用いた高度にカスタマイズされた任意形変換
- Authors: Hanzhang Wang, Haoran Wang, Jinze Yang, Zhongrui Yu, Zeke Xie, Lei
Tian, Xinyan Xiao, Junjun Jiang, Xianming Liu, Mingming Sun
- Abstract要約: Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 84.12784265734238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of Arbitrary Style Transfer (AST) is injecting the artistic features
of a style reference into a given image/video. Existing methods usually focus
on pursuing the balance between style and content, whereas ignoring the
significant demand for flexible and customized stylization results and thereby
limiting their practical application. To address this critical issue, a novel
AST approach namely HiCAST is proposed, which is capable of explicitly
customizing the stylization results according to various source of semantic
clues. In the specific, our model is constructed based on Latent Diffusion
Model (LDM) and elaborately designed to absorb content and style instance as
conditions of LDM. It is characterized by introducing of \textit{Style
Adapter}, which allows user to flexibly manipulate the output results by
aligning multi-level style information and intrinsic knowledge in LDM. Lastly,
we further extend our model to perform video AST. A novel learning objective is
leveraged for video diffusion model training, which significantly improve
cross-frame temporal consistency in the premise of maintaining stylization
strength. Qualitative and quantitative comparisons as well as comprehensive
user studies demonstrate that our HiCAST outperforms the existing SoTA methods
in generating visually plausible stylization results.
- Abstract(参考訳): Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
既存の手法は通常、スタイルとコンテンツのバランスを追求することに集中するが、柔軟性とカスタマイズによるスタイリゼーション結果に対する大きな要求を無視して、実用的な用途を制限している。
この重要な問題に対処するために,多種多様な意味的手がかりに基づいてスタイリング結果を明示的にカスタマイズできる新しいASTアプローチであるHiCASTを提案する。
本モデルはLDM(Latent Diffusion Model)に基づいて構築され,LCMの条件としてコンテンツやスタイルのインスタンスを吸収するように設計されている。
マルチレベルのスタイル情報と LDM 固有の知識を整合させて出力結果を柔軟に操作できる \textit{Style Adapter} を導入することで特徴付けられる。
最後に、私たちのモデルをさらに拡張して、ビデオASTを実行します。
ビデオ拡散モデルのトレーニングに新たな学習目標が活用され,スタイリゼーション強度の維持を前提として,フレーム間の時間的整合性を大幅に向上する。
質的かつ定量的な比較と包括的ユーザ研究により,我々は既存のsoma法を上回り,視覚的に妥当なスタイライゼーション結果を生成することを証明した。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer [19.355744690301403]
本研究では,事前学習した大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-11T09:53:12Z) - WSAM: Visual Explanations from Style Augmentation as Adversarial
Attacker and Their Influence in Image Classification [2.282270386262498]
本稿では,一般線形変換におけるランダム化の改善に加えて,ノイズベースサンプリングを用いたスタイル拡張アルゴリズムについて概説する。
すべてのモデルは、画像のスタイリングに対して驚くべき堅牢性を示すだけでなく、以前のすべての手法よりも優れており、STL-10データセットの最先端性能を上回っている。
論文 参考訳(メタデータ) (2023-08-29T02:50:36Z) - ArtFusion: Controllable Arbitrary Style Transfer using Dual Conditional
Latent Diffusion Models [0.0]
Arbitrary Style Transfer (AST)は、任意のアートワークからスタイルを採用することで、イメージを変換することを目的としている。
我々は、コンテンツとスタイルの柔軟なバランスを提供する新しいアプローチ、ArtFusionを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:58:36Z) - MODIFY: Model-driven Face Stylization without Style Images [77.24793103549158]
既存の顔のスタイリング手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を取得する。
そこで本研究では,MODel-drIven Face stYlization (MODIFY) と呼ばれる新たな手法を提案する。
複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証した。
論文 参考訳(メタデータ) (2023-03-17T08:35:17Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。