Fugu-MT 論文翻訳(概要): ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model

論文の概要: ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model

arxiv url: http://arxiv.org/abs/2405.15287v2
Date: Mon, 18 Nov 2024 09:35:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.719696
Title: ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model
Title（参考訳）: ArtWeaver: 拡散モデルによる高度な動的スタイル統合
Authors: Chengming Xu, Kai Hu, Qilin Wang, Donghao Luo, Jiangning Zhang, Xiaobin Hu, Yanwei Fu, Chengjie Wang,
Abstract要約: Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
参考スコア（独自算出の注目度）: 73.95608242322949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stylized Text-to-Image Generation (STIG) aims to generate images from text prompts and style reference images. In this paper, we present ArtWeaver, a novel framework that leverages pretrained Stable Diffusion (SD) to address challenges such as misinterpreted styles and inconsistent semantics. Our approach introduces two innovative modules: the mixed style descriptor and the dynamic attention adapter. The mixed style descriptor enhances SD by combining content-aware and frequency-disentangled embeddings from CLIP with additional sources that capture global statistics and textual information, thus providing a richer blend of style-related and semantic-related knowledge. To achieve a better balance between adapter capacity and semantic control, the dynamic attention adapter is integrated into the diffusion UNet, dynamically calculating adaptation weights based on the style descriptors. Additionally, we introduce two objective functions to optimize the model alongside the denoising loss, further enhancing semantic and style consistency. Extensive experiments demonstrate the superiority of ArtWeaver over existing methods, producing images with diverse target styles while maintaining the semantic integrity of the text prompts.
Abstract（参考訳）: Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。本稿では、事前学習された安定拡散(SD)を利用して、誤解釈スタイルや一貫性のない意味論などの課題に対処する新しいフレームワークであるArtWeaverを提案する。提案手法では, 混合型記述子と動的アテンションアダプタの2つのイノベーティブなモジュールを導入している。この混合スタイル記述子は、CLIPからのコンテンツ認識と周波数非依存の埋め込みと、グローバル統計とテキスト情報をキャプチャする追加ソースを組み合わせることでSDを強化し、スタイル関連の知識とセマンティック関連知識のよりリッチなブレンドを提供する。アダプタのキャパシティとセマンティックコントロールのバランスを改善するために、動的アテンションアダプタを拡散UNetに統合し、スタイル記述子に基づいて適応重みを動的に計算する。さらに,2つの目的関数を導入して,モデルとデノゲーション損失を同時に最適化し,セマンティクスとスタイル整合性をさらに強化する。大規模な実験では、既存の手法よりもArtWeaverの方が優れており、テキストプロンプトのセマンティックな整合性を保ちながら、多様なターゲットスタイルの画像を生成できる。

関連論文リスト

Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation [18.601789249339014]
中国のフォント生成は、少数の参照画像のみを使用して、ターゲットスタイルで新しい文字を合成することを目的としている。既存のアプローチは機能レベルのアンタングルのみを達成するため、ジェネレータはこれらの機能を再アンタングルすることができる。本研究では,2つのチャンネルからコンテンツとスタイル情報を受信する構造レベル分散拡散モデルを提案する。
論文参考訳（メタデータ） (2026-02-21T15:41:06Z)
Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。セマンティック・スタイル統合(DSSI)機構を提案する。実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文参考訳（メタデータ） (2026-01-10T16:01:14Z)
Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition [1.03590082373586]
ファッションスタイル認識のためのデータセットは、スタイル概念の固有の主観性とあいまいさのために困難である。近年のテキスト・ツー・イメージ・モデルの発展により,ラベル付きデータからの画像の合成により生成データの増大が促進されている。提案手法は,選択した単語を参照キャプションに隠蔽し,多種多様な意味的コヒーレントを生成するために大規模言語モデルを活用する,新たな促進戦略である。
論文参考訳（メタデータ） (2025-04-28T03:42:42Z)
ArtCrafter: Text-Image Aligning Style Transfer via Embedding Reframing [25.610375901522886]
ArtCrafterは、テキストから画像へのスタイル転送のための新しいフレームワークである。注意に基づくスタイル抽出モジュールを導入する。また,新たなテキスト画像アライメント拡張コンポーネントを提案する。
論文参考訳（メタデータ） (2025-01-03T19:17:27Z)
DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文参考訳（メタデータ） (2024-10-19T06:42:43Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文参考訳（メタデータ） (2024-01-25T04:53:03Z)
HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文参考訳（メタデータ） (2024-01-11T12:26:23Z)
ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文参考訳（メタデータ） (2023-11-09T15:50:52Z)
StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。 T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文参考訳（メタデータ） (2023-09-04T19:16:46Z)
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文参考訳（メタデータ） (2022-11-19T12:30:44Z)
StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文参考訳（メタデータ） (2021-03-29T15:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。