論文の概要: Assessing Open-world Forgetting in Generative Image Model Customization
- arxiv url: http://arxiv.org/abs/2410.14159v2
- Date: Wed, 05 Feb 2025 13:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:03.836871
- Title: Assessing Open-world Forgetting in Generative Image Model Customization
- Title(参考訳): 生成的画像モデルカスタマイズにおけるオープンワールドフォーミングの評価
- Authors: Héctor Laria, Alex Gomez-Villa, Kai Wang, Bogdan Raducanu, Joost van de Weijer,
- Abstract要約: 我々は、意図しない変更の広大な範囲を特徴付けるために、オープンワールドの忘れという概念を導入する。
モデル適応であっても,新たに導入された概念をはるかに超越した領域において,意味的ドリフトが著しく影響されることが示唆された。
本稿では,新しい概念を取り入れつつ,本来の能力を効果的に維持する機能正規化戦略を提案する。
- 参考スコア(独自算出の注目度): 18.246389150176665
- License:
- Abstract: Recent advances in diffusion models have significantly enhanced image generation capabilities. However, customizing these models with new classes often leads to unintended consequences that compromise their reliability. We introduce the concept of open-world forgetting to characterize the vast scope of these unintended alterations. Our work presents the first systematic investigation into open-world forgetting in diffusion models, focusing on semantic and appearance drift of representations. Using zero-shot classification, we demonstrate that even minor model adaptations can lead to significant semantic drift affecting areas far beyond newly introduced concepts, with accuracy drops of up to 60% on previously learned concepts. Our analysis of appearance drift reveals substantial changes in texture and color distributions of generated content. To address these issues, we propose a functional regularization strategy that effectively preserves original capabilities while accommodating new concepts. Through extensive experiments across multiple datasets and evaluation metrics, we demonstrate that our approach significantly reduces both semantic and appearance drift. Our study highlights the importance of considering open-world forgetting in future research on model customization and finetuning methods.
- Abstract(参考訳): 拡散モデルの最近の進歩は画像生成能力を著しく向上させた。
しかし、これらのモデルを新しいクラスでカスタマイズすることは、しばしば意図しない結果をもたらし、信頼性を損なう。
我々は、これらの意図しない変更の広い範囲を特徴付けるために、オープンワールドの忘れという概念を紹介します。
本研究は,表現のセマンティックドリフトと外観ドリフトに着目した,拡散モデルにおけるオープンワールドの忘れに関する最初の体系的研究である。
ゼロショット分類を用いて、たとえマイナーモデル適応であっても、新しく導入された概念をはるかに超越した領域に重大な意味的ドリフトを生じさせ、以前に学習した概念に対して最大60%の精度で精度が低下することを示した。
外観ドリフトの解析により,生成したコンテンツのテクスチャや色分布が大きく変化したことが明らかとなった。
これらの課題に対処するため,我々は,新しい概念を取り入れつつ,本来の能力を効果的に維持する機能正規化戦略を提案する。
複数のデータセットと評価指標にまたがる広範な実験を通じて、我々のアプローチはセマンティックドリフトと外観ドリフトの両方を著しく削減することを示した。
本研究は,モデルカスタマイズとファインタニング手法の今後の研究において,オープンワールドを忘れることを検討することの重要性を強調した。
関連論文リスト
- A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Demystifying Variational Diffusion Models [23.601173340762074]
我々は、有向なグラフィカルモデリングと変分ベイズ原理を用いた拡散モデルについて、より簡単に紹介する。
我々の展示は、深い潜伏変数モデルのような基本的な概念から、連続時間拡散に基づくモデリングの最近の進歩まで、包括的な技術的レビューを構成する。
我々は、新しい表記の導入を避けつつ、理解を助けるために、可能な限り精巧な作品で省略された追加の数学的洞察を提供する。
論文 参考訳(メタデータ) (2024-01-11T22:37:37Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Mitigating Bias: Enhancing Image Classification by Improving Model
Explanations [9.791305104409057]
ディープラーニングモデルは、画像の背景にあるシンプルで容易に識別できる特徴に大きく依存する傾向がある。
モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。
本研究は,画像内の主概念の理解と表現を高める上で,前景の注意が重要であることを明らかにする。
論文 参考訳(メタデータ) (2023-07-04T04:46:44Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Embracing New Techniques in Deep Learning for Estimating Image
Memorability [0.0]
画像の記憶可能性を予測するための5つの代替ディープラーニングモデルを提案し,評価する。
以上の結果から,キーとなる記憶能力ネットワークは,その一般化性を過大評価し,トレーニングセットに過度に適合していたことが示唆された。
我々は、新しい最先端モデルを簡単に研究コミュニティに提供し、メモリ研究者がより広い範囲の画像で記憶可能性について予測できるようにしました。
論文 参考訳(メタデータ) (2021-05-21T23:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。