Fugu-MT 論文翻訳(概要): DiffArtist: Towards Structure and Appearance Controllable Image Stylization

論文の概要: DiffArtist: Towards Structure and Appearance Controllable Image Stylization

arxiv url: http://arxiv.org/abs/2407.15842v3
Date: Wed, 23 Apr 2025 17:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 05:12:25.969389
Title: DiffArtist: Towards Structure and Appearance Controllable Image Stylization
Title（参考訳）: DiffArtist: 構造と外観制御可能な画像スティル化を目指して
Authors: Ruixiang Jiang, Changwen Chen,
Abstract要約: 本稿では2次元画像の構造と外観の同時スタイリングについて包括的に研究する。 DiffArtistは、構造と外観の二重制御を可能にする最初のスタイリング手法である。
参考スコア（独自算出の注目度）: 19.5597806965592
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artistic style includes both structural and appearance elements. Existing neural stylization techniques primarily focus on transferring appearance features such as color and texture, often neglecting the equally crucial aspect of structural stylization. In this paper, we present a comprehensive study on the simultaneous stylization of structure and appearance of 2D images. Specifically, we introduce DiffArtist, which, to the best of our knowledge, is the first stylization method to allow for dual controllability over structure and appearance. Our key insight is to represent structure and appearance as separate diffusion processes to achieve complete disentanglement without requiring any training, thereby endowing users with unprecedented controllability for both components. The evaluation of stylization of both appearance and structure, however, remains challenging as it necessitates semantic understanding. To this end, we further propose a Multimodal LLM-based style evaluator, which better aligns with human preferences than metrics lacking semantic understanding. With this powerful evaluator, we conduct extensive analysis, demonstrating that DiffArtist achieves superior style fidelity, editability, and structure-appearance disentanglement. These merits make DiffArtist a highly versatile solution for creative applications. Project homepage: https://github.com/songrise/Artist.
Abstract（参考訳）: 芸術様式には、構造的要素と外観的要素の両方が含まれる。既存のニューラルスタイリゼーション技術は主に色やテクスチャなどの外観の特徴の伝達に焦点を当てており、しばしば構造的スタイリゼーションの等しく重要な側面を無視している。本稿では,2次元画像の構造と外観の同時スタイリングに関する総合的研究を行う。具体的には、DiffArtistを紹介します。これは、私たちの知る限り、構造と外観の二重制御を可能にする最初のスタイリング手法です。私たちのキーとなる洞察は、構造と外観を独立した拡散過程として表現し、トレーニングを必要とせずに完全な絡み合いを達成することで、両方のコンポーネントに対して前例のない制御性を持つユーザを養うことです。しかし、外観と構造の両方のスタイル化の評価は、意味的理解を必要とするため、依然として困難である。そこで本研究では,意味理解に欠ける指標よりも,人間の好みに合わせたマルチモーダル LLM スタイル評価器を提案する。この強力な評価器を用いて、DiffArtistが優れたスタイルの忠実さ、編集性、構造・外観のゆがみを達成できることを実証し、広範囲な分析を行う。これらのメリットは、DiffArtistをクリエイティブなアプリケーションのための非常に汎用的なソリューションにする。プロジェクトホームページ:https://github.com/songrise/Artist.com

関連論文リスト

One-shot Embroidery Customization via Contrastive LoRA Modulation [20.463441212598273]
本稿では,単一参照画像で微細なスタイルとコンテンツ特徴を分離する,新しいコントラスト学習フレームワークを提案する。細粒度スタイル転送の手法を評価するため,刺青カスタマイズのためのベンチマークを構築した。
論文参考訳（メタデータ） (2025-09-23T12:58:15Z)
Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。 NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文参考訳（メタデータ） (2025-09-01T11:59:03Z)
Training Free Stylized Abstraction [27.307331773270676]
スティル化抽象化は、視覚的に誇張されているが意味的に忠実な対象表現を合成し、認識可能性と知覚歪みのバランスをとる。視覚言語モデル(VLLM)における推論時間スケーリングを用いて,単一の画像からスタイル化された抽象化を生成する学習自由フレームワークを提案する。提案手法は,時間的時間的スケジューリングによって動的に構造復元を適応し,主観とスタイルの両方を尊重する高忠実度復元を可能にする。
論文参考訳（メタデータ） (2025-05-28T17:59:57Z)
Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文参考訳（メタデータ） (2025-03-15T06:58:09Z)
StyleBlend: Enhancing Style-Specific Content Creation in Text-to-Image Diffusion Models [10.685779311280266]
StyleBlendは、限られた参照画像からスタイル表現を学習し、適用するために設計された手法である。アプローチではスタイルを構成とテクスチャの2つのコンポーネントに分解し,それぞれが異なる戦略を通じて学習する。
論文参考訳（メタデータ） (2025-02-13T08:26:54Z)
IntroStyle: Training-Free Introspective Style Attribution using Diffusion Features [89.95303251220734]
本稿では,拡散モデルのみによって生成された特徴を用いて,スタイル帰属問題を解決するための学習自由フレームワークを提案する。これはイントロスペクティブなスタイル属性(IntroStyle)と表現され、スタイル検索の最先端モデルよりも優れたパフォーマンスを示す。また,芸術的スタイルを分離し,きめ細かなスタイル帰属性能を評価するために,スタイルハック(SHacks)の合成データセットも導入した。
論文参考訳（メタデータ） (2024-12-19T01:21:23Z)
Learning Artistic Signatures: Symmetry Discovery and Style Transfer [8.288443063900825]
芸術様式の明確な定義はない。スタイルは、局所的なテクスチャの配置を規定するグローバルな対称性のセットと考えるべきである。局所的特徴とグローバル的特徴の両方を考慮し、リージェネレータと従来のテクスチャ尺度の両方を用いて、どちらの特徴セットよりもアーティスト間のスタイル的類似性を定量的に捉えることができることを示す。
論文参考訳（メタデータ） (2024-12-05T18:56:23Z)
DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文参考訳（メタデータ） (2024-10-19T06:42:43Z)
VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models [53.59400446543756]
アーティスティック・タイポグラフィー(Arttic typography)は、入力文字の意味を想像可能で読みやすい方法で視覚化する技法である。そこで我々は,VitaGlyphと呼ばれる2枝のトレーニング不要な手法を導入し,幾何学的変化を制御可能な,柔軟な芸術的タイポグラフィーを実現する。
論文参考訳（メタデータ） (2024-10-02T16:48:47Z)
StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文参考訳（メタデータ） (2024-08-18T14:27:20Z)
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。 InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文参考訳（メタデータ） (2024-06-30T18:05:33Z)
ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文参考訳（メタデータ） (2024-05-24T07:19:40Z)
Towards Highly Realistic Artistic Style Transfer via Stable Diffusion with Step-aware and Layer-aware Prompt [12.27693060663517]
芸術的スタイルの転送は、学習した芸術的スタイルを任意のコンテンツイメージに転送することを目的としており、芸術的なスタイル化されたイメージを生成する。 LSASTと呼ばれる,事前学習型拡散型アートスタイルトランスファー手法を提案する。提案手法は,最先端の芸術的スタイル伝達法よりも,よりリアルな芸術的スタイル化画像を生成することができる。
論文参考訳（メタデータ） (2024-04-17T15:28:53Z)
StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文参考訳（メタデータ） (2024-04-08T07:43:23Z)
Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。 SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文参考訳（メタデータ） (2024-03-21T17:20:21Z)
Deformable One-shot Face Stylization via DINO Semantic Guidance [12.771707124161665]
本稿では、外観と構造を同時に考慮したワンショット顔スタイリングの問題に対処する。従来の単一イメージスタイルの参照から切り離された変形認識顔のスタイリングを探索し、代わりにリアルスタイルのイメージペアを選択する。
論文参考訳（メタデータ） (2024-03-01T11:30:55Z)
Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文参考訳（メタデータ） (2023-12-04T18:55:35Z)
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。 StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文参考訳（メタデータ） (2023-12-01T03:53:21Z)
$Z^*$: Zero-shot Style Transfer via Attention Rearrangement [27.185432348397693]
本研究では,バニラ拡散モデルが直接スタイル情報を抽出し,生成前の情報をコンテンツイメージにシームレスに統合できることを示す。我々は、遅延空間におけるコンテンツ/スタイル参照を表すために、デュアル・デノナイズ・パスを採用し、次に、スタイル・レイト・コードでコンテンツ・イメージ・デノナイズ・プロセスをガイドする。
論文参考訳（メタデータ） (2023-11-25T11:03:43Z)
ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文参考訳（メタデータ） (2023-11-09T15:50:52Z)
ArtFusion: Controllable Arbitrary Style Transfer using Dual Conditional Latent Diffusion Models [0.0]
Arbitrary Style Transfer (AST)は、任意のアートワークからスタイルを採用することで、イメージを変換することを目的としている。我々は、コンテンツとスタイルの柔軟なバランスを提供する新しいアプローチ、ArtFusionを提案する。
論文参考訳（メタデータ） (2023-06-15T17:58:36Z)
ALADIN-NST: Self-supervised disentangled representation learning of artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文参考訳（メタデータ） (2023-04-12T10:33:18Z)
Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis [78.28620571530706]
大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
論文参考訳（メタデータ） (2022-12-09T18:30:24Z)
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文参考訳（メタデータ） (2022-11-19T12:30:44Z)
Arbitrary Style Transfer with Structure Enhancement by Combining the Global and Local Loss [51.309905690367835]
本稿では,グローバルな損失と局所的な損失を組み合わせ,構造拡張を伴う任意のスタイル転送手法を提案する。実験結果から,視覚効果の優れた高画質画像が生成できることが示唆された。
論文参考訳（メタデータ） (2022-07-23T07:02:57Z)
Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文参考訳（メタデータ） (2022-05-19T13:11:24Z)
Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer [103.54337984566877]
StyleGANの最近の研究は、限られたデータを用いたトランスファーラーニングによる芸術的肖像画生成に高い性能を示している。本稿では,オリジナルフェイスドメインと拡張アートポートレートドメインの両スタイルを柔軟に制御できる新しいDualStyleGANを提案する。高品質なポートレートスタイル転送とフレキシブルなスタイル制御において、DualStyleGANが最先端の手法よりも優れていることを示す実験である。
論文参考訳（メタデータ） (2022-03-24T17:57:11Z)
Anisotropic Stroke Control for Multiple Artists Style Transfer [36.92721585146738]
Stroke Control Multi-Artist Style Transferフレームワークを開発した。異方性ストロークモジュール(ASM)は、様々なスタイルで適応的なセマンティック一貫性を持つネットワークを提供する。単一スケールの条件付き識別器とは対照的に,識別器はマルチスケールのテクスチャの手がかりを捉えることができる。
論文参考訳（メタデータ） (2020-10-16T05:32:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。