論文の概要: ShowFlow: From Robust Single Concept to Condition-Free Multi-Concept Generation
- arxiv url: http://arxiv.org/abs/2506.18493v1
- Date: Mon, 23 Jun 2025 10:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.938624
- Title: ShowFlow: From Robust Single Concept to Condition-Free Multi-Concept Generation
- Title(参考訳): ShowFlow:ロバスト・シングルコンセプトから条件なしマルチコンセプト・ジェネレーションへ
- Authors: Trong-Vu Hoang, Quang-Binh Nguyen, Thanh-Toan Do, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: ShowFlowは、制御可能な画像合成のための包括的なフレームワークである。
ShowFlow-Sはシングルコンセプト生成用であり、ShowFlow-Mは複数の概念を扱うためのものだ。
- 参考スコア(独自算出の注目度): 23.29433525061812
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Customizing image generation remains a core challenge in controllable image synthesis. For single-concept generation, maintaining both identity preservation and prompt alignment is challenging. In multi-concept scenarios, relying solely on a prompt without additional conditions like layout boxes or semantic masks, often leads to identity loss and concept omission. In this paper, we introduce ShowFlow, a comprehensive framework designed to tackle these challenges. We propose ShowFlow-S for single-concept image generation, and ShowFlow-M for handling multiple concepts. ShowFlow-S introduces a KronA-WED adapter, which integrates a Kronecker adapter with weight and embedding decomposition, and employs a disentangled learning approach with a novel attention regularization objective to enhance single-concept generation. Building on this foundation, ShowFlow-M directly reuses the learned models from ShowFlow-S to support multi-concept generation without extra conditions, incorporating a Subject-Adaptive Matching Attention (SAMA) and a layout consistency strategy as the plug-and-play module. Extensive experiments and user studies validate ShowFlow's effectiveness, highlighting its potential in real-world applications like advertising and virtual dressing.
- Abstract(参考訳): 画像生成のカスタマイズは、制御可能な画像合成における中核的な課題である。
シングルコンセプト生成では、アイデンティティの保存と迅速なアライメントの両立が困難である。
マルチコンセプトのシナリオでは、レイアウトボックスやセマンティックマスクのような追加条件なしでプロンプトのみに依存するため、IDの喪失や概念の省略につながることが多い。
本稿では,これらの課題に対処するための総合的なフレームワークであるShowFlowを紹介する。
本稿では,シングルコンセプト画像生成のためのShowFlow-Sと,複数の概念を扱うShowFlow-Mを提案する。
ShowFlow-SはKronA-WEDアダプタを導入し、Kroneckerアダプタを重みと埋め込み分解に統合し、単一の概念生成を強化するために、新しい注意規則化目的の非絡み合い学習アプローチを採用する。
この基盤の上に構築されたShowFlow-Mは、ShowFlow-Sから学んだモデルを直接再利用して、追加条件なしでマルチコンセプト生成をサポートし、SAMA(Subject-Adaptive Matching Attention)と、プラグイン・アンド・プレイモジュールとしてレイアウト整合性戦略を組み込む。
大規模な実験とユーザスタディは、ShowFlowの有効性を評価し、広告や仮想ドレッシングのような現実世界のアプリケーションにおけるその可能性を強調している。
関連論文リスト
- Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫した多視点画像を生成するためのMV-AR法を提案する。
複数の条件に対処するために,テキスト,カメラポーズ,画像,形状の条件注入モジュールを導入する。
一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文 参考訳(メタデータ) (2025-06-23T11:28:37Z) - A Strong View-Free Baseline Approach for Single-View Image Guided Point Cloud Completion [11.617131779171933]
本稿では,アテンションベースのマルチブランチエンコーダデコーダネットワークに基づくSVIPCの強力なベースラインアプローチを提案する。
我々の階層的な自己融合機構は、クロスアテンション層とセルフアテンション層によって駆動され、複数のストリームにまたがる情報を効果的に統合する。
本研究では、ShapeNet-ViPCデータセットに関する実験およびアブレーション研究により、ビューフリーフレームワークが最先端SVIPC法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-06-18T04:10:35Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文 参考訳(メタデータ) (2024-12-04T06:46:55Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。