論文の概要: Mitigating Catastrophic Forgetting and Mode Collapse in Text-to-Image Diffusion via Latent Replay
- arxiv url: http://arxiv.org/abs/2509.10529v1
- Date: Thu, 04 Sep 2025 23:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.789042
- Title: Mitigating Catastrophic Forgetting and Mode Collapse in Text-to-Image Diffusion via Latent Replay
- Title(参考訳): テキスト・画像拡散における遅延再生による破滅的予測とモード崩壊の緩和
- Authors: Aoi Otani,
- Abstract要約: 継続的な学習は自然知性の基本である。
「破滅的な忘れ」は、新しいタスクの学習が以前獲得した知識を消去するときに起こる。
Latent Replayは、生成AIモデルのための効率的な連続学習を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning -- the ability to acquire knowledge incrementally without forgetting previous skills -- is fundamental to natural intelligence. While the human brain excels at this, artificial neural networks struggle with "catastrophic forgetting," where learning new tasks erases previously acquired knowledge. This challenge is particularly severe for text-to-image diffusion models, which generate images from textual prompts. Additionally, these models face "mode collapse," where their outputs become increasingly repetitive over time. To address these challenges, we apply Latent Replay, a neuroscience-inspired approach, to diffusion models. Traditional replay methods mitigate forgetting by storing and revisiting past examples, typically requiring large collections of images. Latent Replay instead retains only compact, high-level feature representations extracted from the model's internal architecture. This mirrors the hippocampal process of storing neural activity patterns rather than raw sensory inputs, reducing memory usage while preserving critical information. Through experiments with five sequentially learned visual concepts, we demonstrate that Latent Replay significantly outperforms existing methods in maintaining model versatility. After learning all concepts, our approach retained 77.59% Image Alignment (IA) on the earliest concept, 14% higher than baseline methods, while maintaining diverse outputs. Surprisingly, random selection of stored latent examples outperforms similarity-based strategies. Our findings suggest that Latent Replay enables efficient continual learning for generative AI models, paving the way for personalized text-to-image models that evolve with user needs without excessive computational costs.
- Abstract(参考訳): 継続的な学習 -- 従来のスキルを忘れずに知識を段階的に習得する能力 -- は、自然知性の基本である。
人間の脳はこれに優れていますが、人工知能は「破滅的な忘れ」に苦慮しています。
この課題はテキスト間拡散モデルにおいて特に深刻であり、テキストプロンプトから画像を生成する。
さらに、これらのモデルは「モード崩壊」に直面し、アウトプットは時間とともに反復的になる。
これらの課題に対処するために、神経科学に触発されたアプローチであるLatent Replayを拡散モデルに適用する。
従来のリプレイ手法は、過去の例を保存して再考することで忘れを軽減し、通常、大量の画像の収集を必要とする。
ラテント・リプレイはモデルの内部アーキテクチャから抽出されたコンパクトで高レベルな特徴表現のみを保持する。
これは、生の感覚入力ではなく、神経活動パターンを記憶する海馬の過程を反映し、重要な情報を保持しながらメモリ使用量を減少させる。
5つの逐次学習された視覚概念を用いた実験により、Latent Replayはモデルの汎用性を維持する上で、既存の手法よりも大幅に優れていることを示した。
すべての概念を学習した後、我々のアプローチは77.59%のイメージアライメント(IA)を維持し、ベースライン法よりも14%高く、多様なアウトプットを維持した。
驚くべきことに、保存された潜在例のランダムな選択は類似性に基づく戦略よりも優れている。
この結果から、Latent Replayは、過剰な計算コストを伴わずにユーザニーズで進化するパーソナライズされたテキスト・ツー・イメージモデルを実現することによって、生成AIモデルに対する効率的な継続的学習を可能にすることが示唆された。
関連論文リスト
- Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion [50.26583654615212]
テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。
本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。
実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
論文 参考訳(メタデータ) (2024-11-08T12:58:48Z) - Accurate Forgetting for All-in-One Image Restoration Model [3.367455972998532]
現在、Machine Unlearningと呼ばれる低価格のスキームは、モデルに記憶されているプライベートデータを忘れている。
このことから,画像復元とセキュリティのギャップを埋めるために,この概念を応用しようと試みている。
論文 参考訳(メタデータ) (2024-09-01T10:14:16Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Selective Amnesia: A Continual Learning Approach to Forgetting in Deep
Generative Models [12.188240438657512]
我々は、事前学習された深層生成モデルの概念を選択的に忘れる連続学習にインスパイアされた手法を導出する。
提案手法はSelective Amnesiaと呼ばれ,ユーザがどのように概念を忘れるべきかを指定することで,制御可能な記憶を可能にする。
論文 参考訳(メタデータ) (2023-05-17T10:53:58Z) - ResMem: Learn what you can and memorize the rest [79.19649788662511]
本稿では,既存の予測モデルを拡張するための残差記憶アルゴリズム(ResMem)を提案する。
構築によって、ResMemはトレーニングラベルを明示的に記憶することができる。
ResMemは、元の予測モデルのテストセットの一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2023-02-03T07:12:55Z) - Embracing New Techniques in Deep Learning for Estimating Image
Memorability [0.0]
画像の記憶可能性を予測するための5つの代替ディープラーニングモデルを提案し,評価する。
以上の結果から,キーとなる記憶能力ネットワークは,その一般化性を過大評価し,トレーニングセットに過度に適合していたことが示唆された。
我々は、新しい最先端モデルを簡単に研究コミュニティに提供し、メモリ研究者がより広い範囲の画像で記憶可能性について予測できるようにしました。
論文 参考訳(メタデータ) (2021-05-21T23:05:23Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Neural Sparse Representation for Image Restoration [116.72107034624344]
スパース符号化に基づく画像復元モデルの堅牢性と効率に触発され,深部ネットワークにおけるニューロンの空間性について検討した。
本手法は,隠れたニューロンに対する空間的制約を構造的に強制する。
実験により、複数の画像復元タスクのためのディープニューラルネットワークではスパース表現が不可欠であることが示されている。
論文 参考訳(メタデータ) (2020-06-08T05:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。