論文の概要: Assessing Open-world Forgetting in Generative Image Model Customization
- arxiv url: http://arxiv.org/abs/2410.14159v1
- Date: Fri, 18 Oct 2024 03:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:04.264723
- Title: Assessing Open-world Forgetting in Generative Image Model Customization
- Title(参考訳): 生成的画像モデルカスタマイズにおけるオープンワールドフォーミングの評価
- Authors: Héctor Laria, Alex Gomez-Villa, Imad Eddine Marouf, Kai Wang, Bogdan Raducanu, Joost van de Weijer,
- Abstract要約: 新しいクラスで拡散モデルをカスタマイズすると、しばしば意図しない結果につながり、信頼性を損なう。
本研究は,拡散モデルにおけるオープンワールドの忘れ方に関する総合的研究である。
本稿では,機能的正規化に基づく緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 17.219815694562993
- License:
- Abstract: Recent advances in diffusion models have significantly enhanced image generation capabilities. However, customizing these models with new classes often leads to unintended consequences that compromise their reliability. We introduce the concept of open-world forgetting to emphasize the vast scope of these unintended alterations, contrasting it with the well-studied closed-world forgetting, which is measurable by evaluating performance on a limited set of classes or skills. Our research presents the first comprehensive investigation into open-world forgetting in diffusion models, focusing on semantic and appearance drift of representations. We utilize zero-shot classification to analyze semantic drift, revealing that even minor model adaptations lead to unpredictable shifts affecting areas far beyond newly introduced concepts, with dramatic drops in zero-shot classification of up to 60%. Additionally, we observe significant changes in texture and color of generated content when analyzing appearance drift. To address these issues, we propose a mitigation strategy based on functional regularization, designed to preserve original capabilities while accommodating new concepts. Our study aims to raise awareness of unintended changes due to model customization and advocates for the analysis of open-world forgetting in future research on model customization and finetuning methods. Furthermore, we provide insights for developing more robust adaptation methodologies.
- Abstract(参考訳): 拡散モデルの最近の進歩は画像生成能力を著しく向上させた。
しかし、これらのモデルを新しいクラスでカスタマイズすることは、しばしば意図しない結果をもたらし、信頼性を損なう。
我々は,これらの意図しない変更の広い範囲を強調するために,オープンワールド・リフレクションの概念を導入し,クラスやスキルの限られたセットのパフォーマンスを評価することで,十分に研究されているクローズドワールド・リフレクションと対比する。
本研究は,表現のセマンティックドリフトと外観ドリフトに着目した,拡散モデルにおけるオープンワールドの忘れに関する初の包括的研究である。
ゼロショット分類を用いてセマンティックドリフトを解析し、マイナーモデルによる適応であっても、新しく導入された概念をはるかに超越した領域に予測不可能な変化をもたらし、ゼロショット分類の最大60%が劇的に低下することを明らかにする。
また, 外観ドリフトの解析において, 生成内容のテクスチャや色の変化が顕著に観察された。
これらの課題に対処するため,機能正規化に基づく緩和戦略を提案する。
本研究は,モデルカスタマイズによる意図しない変化に対する意識を高めることを目的としており,今後のモデルカスタマイズとファインタニング手法に関する研究におけるオープンワールドの忘れの分析を提唱している。
さらに、より堅牢な適応手法を開発するための洞察を提供する。
関連論文リスト
- A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Demystifying Variational Diffusion Models [23.601173340762074]
我々は、有向なグラフィカルモデリングと変分ベイズ原理を用いた拡散モデルについて、より簡単に紹介する。
我々の展示は、深い潜伏変数モデルのような基本的な概念から、連続時間拡散に基づくモデリングの最近の進歩まで、包括的な技術的レビューを構成する。
我々は、新しい表記の導入を避けつつ、理解を助けるために、可能な限り精巧な作品で省略された追加の数学的洞察を提供する。
論文 参考訳(メタデータ) (2024-01-11T22:37:37Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Mitigating Bias: Enhancing Image Classification by Improving Model
Explanations [9.791305104409057]
ディープラーニングモデルは、画像の背景にあるシンプルで容易に識別できる特徴に大きく依存する傾向がある。
モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。
本研究は,画像内の主概念の理解と表現を高める上で,前景の注意が重要であることを明らかにする。
論文 参考訳(メタデータ) (2023-07-04T04:46:44Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Embracing New Techniques in Deep Learning for Estimating Image
Memorability [0.0]
画像の記憶可能性を予測するための5つの代替ディープラーニングモデルを提案し,評価する。
以上の結果から,キーとなる記憶能力ネットワークは,その一般化性を過大評価し,トレーニングセットに過度に適合していたことが示唆された。
我々は、新しい最先端モデルを簡単に研究コミュニティに提供し、メモリ研究者がより広い範囲の画像で記憶可能性について予測できるようにしました。
論文 参考訳(メタデータ) (2021-05-21T23:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。