Fugu-MT 論文翻訳(概要): Assessing Open-world Forgetting in Generative Image Model Customization

論文の概要: Assessing Open-world Forgetting in Generative Image Model Customization

arxiv url: http://arxiv.org/abs/2410.14159v2
Date: Wed, 05 Feb 2025 13:06:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.709647
Title: Assessing Open-world Forgetting in Generative Image Model Customization
Title（参考訳）: 生成的画像モデルカスタマイズにおけるオープンワールドフォーミングの評価
Authors: Héctor Laria, Alex Gomez-Villa, Kai Wang, Bogdan Raducanu, Joost van de Weijer,
Abstract要約: 我々は、意図しない変更の広大な範囲を特徴付けるために、オープンワールドの忘れという概念を導入する。モデル適応であっても,新たに導入された概念をはるかに超越した領域において,意味的ドリフトが著しく影響されることが示唆された。本稿では,新しい概念を取り入れつつ,本来の能力を効果的に維持する機能正規化戦略を提案する。
参考スコア（独自算出の注目度）: 18.246389150176665
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in diffusion models have significantly enhanced image generation capabilities. However, customizing these models with new classes often leads to unintended consequences that compromise their reliability. We introduce the concept of open-world forgetting to characterize the vast scope of these unintended alterations. Our work presents the first systematic investigation into open-world forgetting in diffusion models, focusing on semantic and appearance drift of representations. Using zero-shot classification, we demonstrate that even minor model adaptations can lead to significant semantic drift affecting areas far beyond newly introduced concepts, with accuracy drops of up to 60% on previously learned concepts. Our analysis of appearance drift reveals substantial changes in texture and color distributions of generated content. To address these issues, we propose a functional regularization strategy that effectively preserves original capabilities while accommodating new concepts. Through extensive experiments across multiple datasets and evaluation metrics, we demonstrate that our approach significantly reduces both semantic and appearance drift. Our study highlights the importance of considering open-world forgetting in future research on model customization and finetuning methods.
Abstract（参考訳）: 拡散モデルの最近の進歩は画像生成能力を著しく向上させた。しかし、これらのモデルを新しいクラスでカスタマイズすることは、しばしば意図しない結果をもたらし、信頼性を損なう。我々は、これらの意図しない変更の広い範囲を特徴付けるために、オープンワールドの忘れという概念を紹介します。本研究は,表現のセマンティックドリフトと外観ドリフトに着目した,拡散モデルにおけるオープンワールドの忘れに関する最初の体系的研究である。ゼロショット分類を用いて、たとえマイナーモデル適応であっても、新しく導入された概念をはるかに超越した領域に重大な意味的ドリフトを生じさせ、以前に学習した概念に対して最大60%の精度で精度が低下することを示した。外観ドリフトの解析により,生成したコンテンツのテクスチャや色分布が大きく変化したことが明らかとなった。これらの課題に対処するため,我々は,新しい概念を取り入れつつ,本来の能力を効果的に維持する機能正規化戦略を提案する。複数のデータセットと評価指標にまたがる広範な実験を通じて、我々のアプローチはセマンティックドリフトと外観ドリフトの両方を著しく削減することを示した。本研究は,モデルカスタマイズとファインタニング手法の今後の研究において,オープンワールドを忘れることを検討することの重要性を強調した。

関連論文リスト

A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文参考訳（メタデータ） (2025-04-09T11:46:41Z)
Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion [50.26583654615212]
テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
論文参考訳（メタデータ） (2024-11-08T12:58:48Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文参考訳（メタデータ） (2024-09-11T14:36:24Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Examining Changes in Internal Representations of Continual Learning Models Through Tensor Decomposition [5.01338577379149]
連続学習(CL)は、逐次学習にまたがる過去の知識の統合を目的としたいくつかの手法の開発を加速させた。 CLモデルのための表現に基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-06T07:52:44Z)
What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文参考訳（メタデータ） (2024-03-10T04:23:24Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Demystifying Variational Diffusion Models [23.601173340762074]
我々は、有向なグラフィカルモデリングと変分ベイズ原理を用いた拡散モデルについて、より簡単に紹介する。我々の展示は、深い潜伏変数モデルのような基本的な概念から、連続時間拡散に基づくモデリングの最近の進歩まで、包括的な技術的レビューを構成する。我々は、新しい表記の導入を避けつつ、理解を助けるために、可能な限り精巧な作品で省略された追加の数学的洞察を提供する。
論文参考訳（メタデータ） (2024-01-11T22:37:37Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Diffusion Models for Image Restoration and Enhancement -- A Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文参考訳（メタデータ） (2023-08-18T08:40:38Z)
Mitigating Bias: Enhancing Image Classification by Improving Model Explanations [9.791305104409057]
ディープラーニングモデルは、画像の背景にあるシンプルで容易に識別できる特徴に大きく依存する傾向がある。モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。本研究は,画像内の主概念の理解と表現を高める上で,前景の注意が重要であることを明らかにする。
論文参考訳（メタデータ） (2023-07-04T04:46:44Z)
Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文参考訳（メタデータ） (2023-02-07T20:42:28Z)
Internal Representations of Vision Models Through the Lens of Frames on Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文参考訳（メタデータ） (2022-11-19T01:48:19Z)
Embracing New Techniques in Deep Learning for Estimating Image Memorability [0.0]
画像の記憶可能性を予測するための5つの代替ディープラーニングモデルを提案し,評価する。以上の結果から,キーとなる記憶能力ネットワークは,その一般化性を過大評価し,トレーニングセットに過度に適合していたことが示唆された。我々は、新しい最先端モデルを簡単に研究コミュニティに提供し、メモリ研究者がより広い範囲の画像で記憶可能性について予測できるようにしました。
論文参考訳（メタデータ） (2021-05-21T23:05:23Z)
Rethinking Generalization of Neural Models: A Named Entity Recognition Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文参考訳（メタデータ） (2020-01-12T04:33:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。