論文の概要: ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization
- arxiv url: http://arxiv.org/abs/2504.13224v1
- Date: Thu, 17 Apr 2025 10:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:54:58.843074
- Title: ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization
- Title(参考訳): ICAS:多目的型転送最適化のためのIPアダプタと制御ネットに基づくアテンション構造
- Authors: Fuwei Liu,
- Abstract要約: ICASは効率的かつ制御可能なマルチオブジェクトスタイル転送のための新しいフレームワークである。
我々のフレームワークは、正確な局所的なスタイル合成とともに、忠実なグローバルなレイアウト維持を保証します。
ICASは、構造保存、スタイル整合性、推論効率において優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating multi-subject stylized images remains a significant challenge due to the ambiguity in defining style attributes (e.g., color, texture, atmosphere, and structure) and the difficulty in consistently applying them across multiple subjects. Although recent diffusion-based text-to-image models have achieved remarkable progress, existing methods typically rely on computationally expensive inversion procedures or large-scale stylized datasets. Moreover, these methods often struggle with maintaining multi-subject semantic fidelity and are limited by high inference costs. To address these limitations, we propose ICAS (IP-Adapter and ControlNet-based Attention Structure), a novel framework for efficient and controllable multi-subject style transfer. Instead of full-model tuning, ICAS adaptively fine-tunes only the content injection branch of a pre-trained diffusion model, thereby preserving identity-specific semantics while enhancing style controllability. By combining IP-Adapter for adaptive style injection with ControlNet for structural conditioning, our framework ensures faithful global layout preservation alongside accurate local style synthesis. Furthermore, ICAS introduces a cyclic multi-subject content embedding mechanism, which enables effective style transfer under limited-data settings without the need for extensive stylized corpora. Extensive experiments show that ICAS achieves superior performance in structure preservation, style consistency, and inference efficiency, establishing a new paradigm for multi-subject style transfer in real-world applications.
- Abstract(参考訳): 多目的スタイリング画像の生成は、スタイル属性(例えば、色、テクスチャ、雰囲気、構造)の曖昧さと、それらを複数の主題に一貫して適用することの難しさにより、依然として重要な課題である。
最近の拡散ベースのテキスト・ツー・イメージモデルは目覚ましい進歩を遂げているが、既存の手法は計算コストのかかる逆転処理や大規模なスタイリングデータセットに依存するのが一般的である。
さらに、これらの手法は多目的意味の忠実さの維持に苦慮し、高い推論コストによって制限されることが多い。
これらの制約に対処するため, ICAS (IP-Adapter and ControlNet-based Attention Structure) を提案する。
ICASは、フルモデルチューニングの代わりに、事前訓練された拡散モデルのコンテンツインジェクションブランチのみを適応的に微調整することで、スタイル制御性を高めながらアイデンティティ固有のセマンティクスを保存する。
適応型スタイルインジェクションのためのIP-Adapterと構造条件設定のためのControlNetを組み合わせることで、正確なローカルスタイル合成とともに、忠実なグローバルなレイアウト保存を実現する。
さらに、ICASは、広範囲なスタイリングコーパスを必要とせずに、限られたデータ設定下で効果的なスタイル転送を可能にする、循環型多目的コンテンツ埋め込み機構を導入している。
大規模実験により,ICASは構造保存,スタイル整合性,推論効率において優れた性能を示し,実世界のアプリケーションにおけるマルチオブジェクトスタイル転送のための新しいパラダイムを確立した。
関連論文リスト
- AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models [4.364797586362505]
AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。
本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。
また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
論文 参考訳(メタデータ) (2025-03-10T13:28:36Z) - Autonomous Structural Memory Manipulation for Large Language Models Using Hierarchical Embedding Augmentation [0.0]
本研究では,マルチレベルセマンティック構造を通じてトークンの表現を再定義する手段として,階層的な埋め込み拡張を導入する。
その結果、より長い入力シーケンスに対して処理オーバーヘッドが大幅に削減され、計算効率が大幅に向上した。
トークン表現とメモリ構成を動的に調整する能力は、様々な予測不可能な入力条件下でモデルの堅牢性に寄与した。
論文 参考訳(メタデータ) (2025-01-23T22:20:36Z) - StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture [29.178246094092202]
スタイル転送は、スタイルソースの芸術的表現ではなく、コンテンツを保存する新しいイメージを生成することを目的としている。
既存の手法の多くはトランスフォーマーや拡散モデルに基づいているが、2次計算の複雑さと高い推論時間に悩まされている。
本稿では,メモリ使用量と線形時間複雑性を制限した高品質なスタイル転送を実現するための新しいフレームワークであるStyleRWKVを提案する。
論文 参考訳(メタデータ) (2024-12-27T09:01:15Z) - Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models [5.492174268132387]
Style-Proは、CLIPのゼロショット一般化能力を緩和し、保存する新しいプロンプト学習フレームワークである。
Style-Proは、ベース・ツー・ニューの一般化、クロス・データセットの転送、ドメインの一般化など、さまざまな設定における最先端のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-25T00:20:53Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。