Fugu-MT 論文翻訳(概要): Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting

論文の概要: Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting

arxiv url: http://arxiv.org/abs/2404.14007v1
Date: Mon, 22 Apr 2024 09:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 14:35:57.087723
Title: Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting
Title（参考訳）: インフュージョン:オーバーフィッティングからカスタマイズされたテキストと画像の拡散を防ぐ
Authors: Weili Zeng, Yichao Yan, Qi Zhu, Zhuo Chen, Pengzhi Chu, Weiming Zhao, Xiaokang Yang,
Abstract要約: 本研究では, 概念知識を損なう概念非依存オーバーフィッティングと, 限られたモダリティのカスタマイズに限定した概念特化オーバーフィッティングを分析した。 Infusionは、ターゲット概念の学習を、限られた訓練モダリティによって制限されるのを避けることができるT2Iカスタマイズ手法である。
参考スコア（独自算出の注目度）: 51.606819347636076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) customization aims to create images that embody specific visual concepts delineated in textual descriptions. However, existing works still face a main challenge, concept overfitting. To tackle this challenge, we first analyze overfitting, categorizing it into concept-agnostic overfitting, which undermines non-customized concept knowledge, and concept-specific overfitting, which is confined to customize on limited modalities, i.e, backgrounds, layouts, styles. To evaluate the overfitting degree, we further introduce two metrics, i.e, Latent Fisher divergence and Wasserstein metric to measure the distribution changes of non-customized and customized concept respectively. Drawing from the analysis, we propose Infusion, a T2I customization method that enables the learning of target concepts to avoid being constrained by limited training modalities, while preserving non-customized knowledge. Remarkably, Infusion achieves this feat with remarkable efficiency, requiring a mere 11KB of trained parameters. Extensive experiments also demonstrate that our approach outperforms state-of-the-art methods in both single and multi-concept customized generation.
Abstract（参考訳）: Text-to-image (T2I) のカスタマイズは、テキスト記述に記述された特定の視覚概念を具現化したイメージを作成することを目的としている。しかし、既存の作業は依然として大きな課題に直面しており、概念が過度に適合している。この課題に取り組むために、我々はまずオーバーフィッティングを分析し、それを非カスタマイズ概念知識を損なう概念非依存オーバーフィッティングと、背景、レイアウト、スタイルといった限られたモダリティのカスタマイズに限定した概念固有のオーバーフィッティングに分類する。オーバーフィッティングの度合いを評価するために,Latent Fisher divergence と Wasserstein という2つの指標を導入する。そこで本研究では,T2I のカスタマイズ手法である Infusion を提案する。注目すべきは、Infusionはこの成果を驚くべき効率で達成し、たった11KBのトレーニング済みパラメータを必要とすることだ。また,本手法は,単一概念と複数概念のカスタマイズ生成において,最先端の手法よりも優れていることを示す。

関連論文リスト

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter [52.08332620725473]
テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-24T09:21:32Z)
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文参考訳（メタデータ） (2025-03-25T15:49:48Z)
ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation [3.7816957214446103]
ConceptGuardは、シフト埋め込み、コンセプトバインディングプロンプト、メモリ保存正規化を組み合わせた包括的なアプローチである。本手法は, 定量的, 定性的な解析において, 基礎的手法を連続的に, 著しく上回ることを示す。
論文参考訳（メタデータ） (2025-03-13T13:39:24Z)
Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文参考訳（メタデータ） (2025-03-11T16:10:36Z)
FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation [26.585985828583304]
FlipConceptは、複数のパーソナライズされた概念をシームレスに単一のイメージに統合する新しいアプローチである。我々は,概念リークを最小限に抑えるために,ガイド付き外観注意,マスク誘導ノイズ混合,背景希釈を導入する。チューニングを必要とせず、本手法は、単一および複数のパーソナライズされた概念推論において、既存のモデルよりも優れている。
論文参考訳（メタデータ） (2025-02-21T04:37:18Z)
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文参考訳（メタデータ） (2024-10-17T09:22:53Z)
CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文参考訳（メタデータ） (2024-10-01T04:41:44Z)
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文参考訳（メタデータ） (2024-08-07T08:43:58Z)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳（メタデータ） (2024-06-21T03:58:44Z)
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文参考訳（メタデータ） (2024-05-28T08:50:14Z)
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文参考訳（メタデータ） (2024-05-24T07:47:36Z)
Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文参考訳（メタデータ） (2024-05-11T05:01:53Z)
Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文参考訳（メタデータ） (2023-10-09T17:13:10Z)
Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文参考訳（メタデータ） (2023-02-23T18:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。