Fugu-MT 論文翻訳(概要): ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance

論文の概要: ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance

arxiv url: http://arxiv.org/abs/2405.17532v2
Date: Wed, 12 Mar 2025 17:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.262966
Title: ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance
Title（参考訳）: ClassDiffusion: 明示的なクラスガイダンスによるパーソナライゼーションチューニング
Authors: Jiannan Huang, Jun Hao Liew, Hanshu Yan, Yuyang Yin, Yao Zhao, Yunchao Wei,
Abstract要約: 新しい概念を学ぶ際に, 概念空間を明示的に規制するために, ** 連続保存損失** を利用するテクニックである **ClassDiffusion** を提示する。このアプローチは単純ではあるが、ターゲット概念の微調整過程における意味的ドリフトを効果的に防止する。
参考スコア（独自算出の注目度）: 78.44823280247438
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent text-to-image customization works have proven successful in generating images of given concepts by fine-tuning diffusion models on a few examples. However, tuning-based methods inherently tend to overfit the concepts, resulting in failure to create the concept under multiple conditions (*e.g.*, headphone is missing when generating "a `dog wearing a headphone"). Interestingly, we notice that the base model before fine-tuning exhibits the capability to compose the base concept with other elements (*e.g.*, "a dog wearing a headphone"), implying that the compositional ability only disappears after personalization tuning. We observe a semantic shift in the customized concept after fine-tuning, indicating that the personalized concept is not aligned with the original concept, and further show through theoretical analyses that this semantic shift leads to increased difficulty in sampling the joint conditional probability distribution, resulting in the loss of the compositional ability. Inspired by this finding, we present **ClassDiffusion**, a technique that leverages a **semantic preservation loss** to explicitly regulate the concept space when learning a new concept. Although simple, this approach effectively prevents semantic drift during the fine-tuning process of the target concepts. Extensive qualitative and quantitative experiments demonstrate that the use of semantic preservation loss effectively improves the compositional abilities of fine-tuning models. Lastly, we also extend our ClassDiffusion to personalized video generation, demonstrating its flexibility.
Abstract（参考訳）: 最近のテキスト・ツー・イメージのカスタマイズ作業は、いくつかの例による微調整拡散モデルにより、与えられた概念の画像を生成することに成功している。しかし、チューニングベースの手法は本質的に概念を過度に適合させる傾向にあり、結果として複数の条件下で概念を作成できない(*e g *, headphone is missing when generated "a `dog wearing a headphone")。興味深いことに、微調整前の基本モデルは、他の要素(*e g *, "a dog wearing a headphone")で基本概念を構成する能力を示しており、構成能力はパーソナライズチューニング後にのみ消失することを示している。微調整後にカスタマイズされた概念のセマンティックシフトを観察し、パーソナライズされた概念が元の概念と一致していないことを示し、さらに、このセマンティックシフトが結合条件の確率分布のサンプリングの困難化を招き、構成能力の喪失をもたらすことを理論的分析を通して示す。この発見にインスパイアされた**ClassDiffusion**は、**意味保存損失**を利用して、新しい概念を学ぶときの概念空間を明示的に規制するテクニックである。このアプローチは単純ではあるが、ターゲット概念の微調整過程における意味的ドリフトを効果的に防止する。高度に定性的かつ定量的な実験により、意味的保存損失の使用は、微調整モデルの構成能力を効果的に改善することを示した。最後に、私たちはClassDiffusionをパーソナライズされたビデオ生成に拡張し、その柔軟性を示しています。

関連論文リスト

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter [52.08332620725473]
テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-24T09:21:32Z)
ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。 ACEは最先端の概念の除去とロバスト性を実現する。従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文参考訳（メタデータ） (2025-04-16T08:16:28Z)
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文参考訳（メタデータ） (2025-03-25T15:49:48Z)
OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか? ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文参考訳（メタデータ） (2024-10-31T17:09:55Z)
How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文参考訳（メタデータ） (2024-10-23T06:47:29Z)
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文参考訳（メタデータ） (2024-08-07T08:43:58Z)
Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? [8.391254800873599]
本稿では,設計によって解釈できない事前学習型ニューラルネットワークに対して,概念に基づく介入を行う手法を提案する。我々は、インターベンタビリティの概念を概念に基づく介入の有効性の尺度として定式化し、この定義を微調整ブラックボックスに活用する。
論文参考訳（メタデータ） (2024-01-24T16:02:14Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Concept Distillation: Leveraging Human-Centered Explanations for Model Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文参考訳（メタデータ） (2023-11-26T14:00:14Z)
CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文参考訳（メタデータ） (2023-11-24T17:55:10Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Hierarchical Semantic Tree Concept Whitening for Interpretable Image Classification [19.306487616731765]
ポストホック分析は、モデルに自然に存在するパターンやルールのみを発見することができる。我々は、隠された層における人間の理解可能な概念の表現を変えるために、積極的に知識を注入する。本手法は,モデル分類性能に悪影響を及ぼすことなく,セマンティックな概念の絡み合いを良くし,モデルの解釈可能性を向上させる。
論文参考訳（メタデータ） (2023-07-10T04:54:05Z)
Statistically Significant Concept-based Explanation of Image Classifiers via Model Knockoffs [22.576922942465142]
概念に基づく説明は、非関連概念を予測タスクにとって重要であると誤解する偽陽性を引き起こす可能性がある。深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いて予測のための重要な概念を選択する手法を提案する。
論文参考訳（メタデータ） (2023-05-27T05:40:05Z)
Mnemonics Training: Multi-Class Incremental Learning without Forgetting [131.1065577648532]
マルチクラスインクリメンタルラーニング(MCIL)は、従来の概念に基づいてトレーニングされたモデルを漸進的に更新することで、新しい概念を学習することを目的としている。本稿では,前例をパラメータ化し,エンドツーエンドで最適化できるようにする,新しい,かつ自動的なフレームワークを提案する。 CIFAR-100, ImageNet-Subset, ImageNet の3つのMCILベンチマークで大規模な実験を行い, メニーモニック・エスペクタの使用が最先端をはるかに上回ることを示す。
論文参考訳（メタデータ） (2020-02-24T12:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。