論文の概要: Multi-party Collaborative Attention Control for Image Customization
- arxiv url: http://arxiv.org/abs/2505.01428v1
- Date: Wed, 02 Apr 2025 12:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.384217
- Title: Multi-party Collaborative Attention Control for Image Customization
- Title(参考訳): 画像カスタマイズのための多人数協調注意制御
- Authors: Han Yang, Chuanguang Yang, Qiuli Wang, Zhulin An, Weilun Feng, Libo Huang, Yongjun Xu,
- Abstract要約: MCA-Ctrlは、テキストと複雑な視覚条件の両方を用いて高品質な画像カスタマイズを可能にするチューニング不要な手法である。
MCA-Ctrlは、条件入力とのセマンティック一貫性を維持しながら、特定の被験者の内容と外観をキャプチャする。
- 参考スコア(独自算出の注目度): 25.362414993337552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of diffusion models has increased the need for customized image generation. However, current customization methods face several limitations: 1) typically accept either image or text conditions alone; 2) customization in complex visual scenarios often leads to subject leakage or confusion; 3) image-conditioned outputs tend to suffer from inconsistent backgrounds; and 4) high computational costs. To address these issues, this paper introduces Multi-party Collaborative Attention Control (MCA-Ctrl), a tuning-free method that enables high-quality image customization using both text and complex visual conditions. Specifically, MCA-Ctrl leverages two key operations within the self-attention layer to coordinate multiple parallel diffusion processes and guide the target image generation. This approach allows MCA-Ctrl to capture the content and appearance of specific subjects while maintaining semantic consistency with the conditional input. Additionally, to mitigate subject leakage and confusion issues common in complex visual scenarios, we introduce a Subject Localization Module that extracts precise subject and editable image layers based on user instructions. Extensive quantitative and human evaluation experiments show that MCA-Ctrl outperforms existing methods in zero-shot image customization, effectively resolving the mentioned issues.
- Abstract(参考訳): 拡散モデルの急速な進歩により、カスタマイズされた画像生成の必要性が高まっている。
しかし、現在のカスタマイズ方法にはいくつかの制限がある。
1) 通常,画像又はテキストの条件のみを受け入れる。
2 複雑な視覚シナリオにおけるカスタマイズは、しばしば被写体漏れ又は混乱につながる。
3)画像条件付出力は、相容れない背景に悩まされる傾向があり、
4) 計算コストが高い。
これらの問題に対処するために,テキストと複雑な視覚条件の両方を用いて高品質な画像カスタマイズを可能にするチューニング不要なMCA-Ctrl(Multi-party Collaborative Attention Control)を提案する。
具体的には、MCA-Ctrlは自己アテンション層内の2つの重要な操作を活用し、複数の並列拡散プロセスを調整し、ターゲット画像生成を誘導する。
このアプローチにより、MCA-Ctrlは条件入力とのセマンティック一貫性を維持しながら、特定の対象の内容と外観をキャプチャできる。
さらに,複雑な視覚的シナリオに共通する被写体漏洩や混乱を緩和するために,ユーザ指示に基づいて正確な被写体と編集可能な画像層を抽出する被写体局所化モジュールを導入する。
MCA-Ctrlはゼロショット画像のカスタマイズにおいて既存の手法よりも優れており、上記の問題を効果的に解決している。
関連論文リスト
- VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Tuning-Free Visual Customization via View Iterative Self-Attention Control [10.657829781274254]
この課題に対処するために、textitView Iterative Self-Attention Control (VisCtrl)を提案する。
VisCtrlは、ターゲット画像中の別の被写体にユーザ特定被写体の外観と構造を注入する、トレーニング不要な方法である。
提案手法は,数ステップで1つの参照画像のみを用いて一貫した,調和的な編集を行う。
論文 参考訳(メタデータ) (2024-06-10T13:41:10Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing [54.712205852602736]
MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-04-17T17:42:19Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Co-Attention for Conditioned Image Matching [91.43244337264454]
照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、イメージを個別に扱うことで、画像間の対応を見出すが、その代わりに、画像間の差異を暗黙的に考慮するよう、両画像に条件を付ける。
論文 参考訳(メタデータ) (2020-07-16T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。