論文の概要: IC-Custom: Diverse Image Customization via In-Context Learning
- arxiv url: http://arxiv.org/abs/2507.01926v1
- Date: Wed, 02 Jul 2025 17:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.403789
- Title: IC-Custom: Diverse Image Customization via In-Context Learning
- Title(参考訳): IC-Custom:インコンテキスト学習による横画像のカスタマイズ
- Authors: Yaowei Li, Xiaoyu Li, Zhaoyang Zhang, Yuxuan Bian, Gan Liu, Xinyuan Li, Jiale Xu, Wenbo Hu, Yating Liu, Lingen Li, Jing Cai, Yuexian Zou, Yancheng He, Ying Shan,
- Abstract要約: IC-Customは、位置認識と位置自由な画像カスタマイズをシームレスに統合する統合フレームワークである。
試着、アクセサリ配置、家具の配置、創造的なIPカスタマイズなど、さまざまな産業アプリケーションをサポートしている。
アイデンティティの整合性、調和性、テキストアライメントの指標に対して、人間の嗜好が73%向上する一方で、オリジナルのモデルのパラメータの0.4%しかトレーニングしていない。
- 参考スコア(独自算出の注目度): 72.92059781700594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image customization, a crucial technique for industrial media production, aims to generate content that is consistent with reference images. However, current approaches conventionally separate image customization into position-aware and position-free customization paradigms and lack a universal framework for diverse customization, limiting their applications across various scenarios. To overcome these limitations, we propose IC-Custom, a unified framework that seamlessly integrates position-aware and position-free image customization through in-context learning. IC-Custom concatenates reference images with target images to a polyptych, leveraging DiT's multi-modal attention mechanism for fine-grained token-level interactions. We introduce the In-context Multi-Modal Attention (ICMA) mechanism with learnable task-oriented register tokens and boundary-aware positional embeddings to enable the model to correctly handle different task types and distinguish various inputs in polyptych configurations. To bridge the data gap, we carefully curated a high-quality dataset of 12k identity-consistent samples with 8k from real-world sources and 4k from high-quality synthetic data, avoiding the overly glossy and over-saturated synthetic appearance. IC-Custom supports various industrial applications, including try-on, accessory placement, furniture arrangement, and creative IP customization. Extensive evaluations on our proposed ProductBench and the publicly available DreamBench demonstrate that IC-Custom significantly outperforms community workflows, closed-source models, and state-of-the-art open-source approaches. IC-Custom achieves approximately 73% higher human preference across identity consistency, harmonicity, and text alignment metrics, while training only 0.4% of the original model parameters. Project page: https://liyaowei-stu.github.io/project/IC_Custom
- Abstract(参考訳): 産業用メディア制作における重要な技術である画像カスタマイズは、参照画像と整合したコンテンツを生成することを目的としている。
しかし、現在のアプローチでは、画像のカスタマイズを位置認識と位置自由なカスタマイズパラダイムに分離し、多様なカスタマイズのための普遍的なフレームワークを欠いているため、様々なシナリオにまたがってアプリケーションを制限している。
これらの制約を克服するために,テキスト内学習による位置認識と位置自由な画像カスタマイズをシームレスに統合する統合フレームワークIC-Customを提案する。
IC-Customは、DiTのマルチモーダルアテンション機構を利用して、ターゲット画像とポリプチチとの参照画像を結合して、きめ細かいトークンレベルのインタラクションを行う。
In-context Multi-Modal Attention (ICMA) 機構を導入し、学習可能なタスク指向レジスタトークンと境界認識位置埋め込みを導入し、モデルが異なるタスクタイプを正しく処理し、様々な入力をpolyptych設定で識別できるようにする。
データギャップを埋めるため,実世界から8k,高品質な合成データから4k,高画質な合成データから12kのアイデンティティ一貫性サンプルを収集し,過剰な光沢や過飽和な合成の出現を回避した。
IC-Customは、試着、アクセサリ配置、家具配置、クリエイティブIPカスタマイズなど、さまざまな産業アプリケーションをサポートしている。
提案したProductBenchと一般公開されているDreamBenchに対する広範な評価は、IC-Customがコミュニティのワークフロー、クローズドソースモデル、最先端のオープンソースアプローチを著しく上回っていることを示している。
IC-Customは、アイデンティティの整合性、調和性、テキストアライメントの指標に対して、人間の好みを約73%向上させ、オリジナルのモデルのパラメータの0.4%しかトレーニングしていない。
プロジェクトページ:https://liyaowei-stu.github.io/project/IC_Custom
関連論文リスト
- DreamO: A Unified Framework for Image Customization [23.11440970488944]
複数の条件をシームレスに統合しながら、幅広いタスクをサポートするために設計された画像カスタマイズフレームワークであるDreamOを紹介する。
具体的には、DreamOは拡散変換器(DiT)フレームワークを使用して、異なるタイプの入力を均一に処理する。
ベースライン整合性を確立するための限られたデータを伴う単純なタスクに焦点を当てた初期段階、カスタマイズ能力を包括的に強化するためのフルスケールトレーニング段階、低品質データによって導入された品質バイアスを補正するための最終品質アライメント段階の3段階からなるプログレッシブトレーニング戦略を採用する。
論文 参考訳(メタデータ) (2025-04-23T17:41:44Z) - LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [28.345828491336874]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文 参考訳(メタデータ) (2023-12-05T02:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。