論文の概要: ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance
- arxiv url: http://arxiv.org/abs/2405.17532v1
- Date: Mon, 27 May 2024 17:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:40:54.877629
- Title: ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance
- Title(参考訳): ClassDiffusion: 明示的なクラスガイダンスによるパーソナライゼーションチューニング
- Authors: Jiannan Huang, Jun Hao Liew, Hanshu Yan, Yuyang Yin, Yao Zhao, Yunchao Wei,
- Abstract要約: 新しい概念を学ぶ際に,意味的保存損失を利用して概念空間を明示的に制御する手法であるClassDiffusionを提案する。
その単純さにもかかわらず、これはターゲット概念を微調整する際のセマンティックドリフトを避けるのに役立つ。
CLIP-T測定値の非効率な評価に対して,BLIP2-T測定値を導入する。
- 参考スコア(独自算出の注目度): 78.44823280247438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent text-to-image customization works have been proven successful in generating images of given concepts by fine-tuning the diffusion models on a few examples. However, these methods tend to overfit the concepts, resulting in failure to create the concept under multiple conditions (e.g. headphone is missing when generating a <sks> dog wearing a headphone'). Interestingly, we notice that the base model before fine-tuning exhibits the capability to compose the base concept with other elements (e.g. a dog wearing a headphone) implying that the compositional ability only disappears after personalization tuning. Inspired by this observation, we present ClassDiffusion, a simple technique that leverages a semantic preservation loss to explicitly regulate the concept space when learning the new concept. Despite its simplicity, this helps avoid semantic drift when fine-tuning on the target concepts. Extensive qualitative and quantitative experiments demonstrate that the use of semantic preservation loss effectively improves the compositional abilities of the fine-tune models. In response to the ineffective evaluation of CLIP-T metrics, we introduce BLIP2-T metric, a more equitable and effective evaluation metric for this particular domain. We also provide in-depth empirical study and theoretical analysis to better understand the role of the proposed loss. Lastly, we also extend our ClassDiffusion to personalized video generation, demonstrating its flexibility.
- Abstract(参考訳): 最近のテキスト・ツー・イメージのカスタマイズ作業は、いくつかの例で拡散モデルを微調整することで、与えられた概念のイメージを生成することに成功している。
しかし、これらの手法は概念を過度に適合させる傾向があり、結果として複数の条件下で概念を作成することができない(例えば、ヘッドホンを装着した<sks>犬を生成する際にヘッドホンが欠落している)。
興味深いことに、微調整前の基本モデルは、他の要素(例えば、ヘッドフォンを装着した犬)で基本概念を構成する能力を示しており、構成能力はパーソナライズチューニング後にのみ消失する。
この観察から着想を得たClassDiffusionは、意味的保存損失を利用して新しい概念を学ぶ際に、概念空間を明示的に制御するシンプルな手法である。
その単純さにもかかわらず、これはターゲット概念を微調整する際のセマンティックドリフトを避けるのに役立つ。
高度に定性的かつ定量的な実験により、意味的保存損失の使用は、細管モデルの構成能力を効果的に改善することを示した。
CLIP-T測定値の非効率な評価に反応して,この領域に対してより公平で効果的な評価基準であるBLIP2-T測定値を導入する。
また,提案した損失の役割をよりよく理解するために,詳細な実証研究と理論的分析を行った。
最後に、私たちはClassDiffusionをパーソナライズされたビデオ生成に拡張し、その柔軟性を示しています。
関連論文リスト
- Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか?
ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。
さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文 参考訳(メタデータ) (2024-10-31T17:09:55Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? [8.391254800873599]
本稿では,設計によって解釈できない事前学習型ニューラルネットワークに対して,概念に基づく介入を行う手法を提案する。
我々は、インターベンタビリティの概念を概念に基づく介入の有効性の尺度として定式化し、この定義を微調整ブラックボックスに活用する。
論文 参考訳(メタデータ) (2024-01-24T16:02:14Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Hierarchical Semantic Tree Concept Whitening for Interpretable Image
Classification [19.306487616731765]
ポストホック分析は、モデルに自然に存在するパターンやルールのみを発見することができる。
我々は、隠された層における人間の理解可能な概念の表現を変えるために、積極的に知識を注入する。
本手法は,モデル分類性能に悪影響を及ぼすことなく,セマンティックな概念の絡み合いを良くし,モデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2023-07-10T04:54:05Z) - Statistically Significant Concept-based Explanation of Image Classifiers
via Model Knockoffs [22.576922942465142]
概念に基づく説明は、非関連概念を予測タスクにとって重要であると誤解する偽陽性を引き起こす可能性がある。
深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いて予測のための重要な概念を選択する手法を提案する。
論文 参考訳(メタデータ) (2023-05-27T05:40:05Z) - Mnemonics Training: Multi-Class Incremental Learning without Forgetting [131.1065577648532]
マルチクラスインクリメンタルラーニング(MCIL)は、従来の概念に基づいてトレーニングされたモデルを漸進的に更新することで、新しい概念を学習することを目的としている。
本稿では,前例をパラメータ化し,エンドツーエンドで最適化できるようにする,新しい,かつ自動的なフレームワークを提案する。
CIFAR-100, ImageNet-Subset, ImageNet の3つのMCILベンチマークで大規模な実験を行い, メニーモニック・エスペクタの使用が最先端をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2020-02-24T12:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。