論文の概要: Exploring Local Memorization in Diffusion Models via Bright Ending Attention
- arxiv url: http://arxiv.org/abs/2410.21665v2
- Date: Fri, 25 Apr 2025 03:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 18:47:07.344736
- Title: Exploring Local Memorization in Diffusion Models via Bright Ending Attention
- Title(参考訳): ブライトエンド注意による拡散モデルにおける局所記憶の探索
- Authors: Chen Chen, Daochang Liu, Mubarak Shah, Chang Xu,
- Abstract要約: テキスト・画像拡散モデルにおける「右端」(BE)異常は、トレーニング画像の記憶に起因する。
本稿では,BEを既存のフレームワークに統合する簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 62.979954692036685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved unprecedented proficiency in generating realistic images. However, their inherent tendency to memorize and replicate training data during inference raises significant concerns, including potential copyright infringement. In response, various methods have been proposed to evaluate, detect, and mitigate memorization. Our analysis reveals that existing approaches significantly underperform in handling local memorization, where only specific image regions are memorized, compared to global memorization, where the entire image is replicated. Also, they cannot locate the local memorization regions, making it hard to investigate locally. To address these, we identify a novel "bright ending" (BE) anomaly in diffusion models prone to memorizing training images. BE refers to a distinct cross-attention pattern observed in text-to-image diffusion models, where memorized image patches exhibit significantly greater attention to the final text token during the last inference step than non-memorized patches. This pattern highlights regions where the generated image replicates training data and enables efficient localization of memorized regions. Equipped with this, we propose a simple yet effective method to integrate BE into existing frameworks, significantly improving their performance by narrowing the performance gap caused by local memorization. Our results not only validate the successful execution of the new localization task but also establish new state-of-the-art performance across all existing tasks, underscoring the significance of the BE phenomenon.
- Abstract(参考訳): テキストと画像の拡散モデルは、現実的な画像を生成するのに前例のない熟練性を達成した。
しかし、推論中にトレーニングデータを記憶し複製する固有の傾向は、潜在的な著作権侵害を含む重大な懸念を引き起こす。
これに対し, 暗記の評価, 検出, 緩和を行う様々な手法が提案されている。
解析の結果, 局所記憶処理において, 局所記憶処理において, 局所記憶処理において, 局所記憶処理において, 局所記憶処理において, 局所記憶処理において, 局所記憶処理において, 画像全体を複製するグローバル記憶処理に比べて, かなり性能が低いことが明らかとなった。
また, 局所記憶領域の特定は困難であり, 現地調査も困難である。
これらの問題に対処するために,拡散モデルにおける新しい「右端」(BE)異常をトレーニング画像の記憶に用いた。
BEはテキスト・ツー・イメージ拡散モデルで観察される異なる相互注意パターンを指し、記憶された画像パッチは、非記憶されたパッチよりも最後の推論ステップにおいて最終テキストトークンに顕著に注意を向ける。
このパターンは、生成された画像がトレーニングデータを複製し、記憶領域の効率的なローカライズを可能にする領域を強調する。
そこで我々は,BEを既存のフレームワークに統合し,局所記憶による性能ギャップを狭めることで,その性能を著しく向上させる手法を提案する。
本研究は,新たなローカライゼーションタスクの実行を成功させるだけでなく,BE現象の意義を浮き彫りにして,既存のすべてのタスクにまたがる新たな最先端性能を確立することを目的としている。
関連論文リスト
- From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。
現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文 参考訳(メタデータ) (2025-04-19T13:40:46Z) - Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition [26.27331683733832]
視覚的位置認識(VPR)は、ジオタグ付き画像のデータベースを参照することにより、クエリ画像の位置を予測することを目的としている。
既存の手法では、識別領域の正確なモデリングと完全な利用が欠如している。
本稿では、画像検索とVPRにおける再ランク付けを同時に行うために、FoL(FoL)アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-14T05:04:51Z) - Unsupervised Region-Based Image Editing of Denoising Diffusion Models [50.005612464340246]
本研究では,事前学習した拡散モデルの潜在空間における意味的属性を,それ以上の訓練を伴わずに同定する手法を提案する。
提案手法により,局所的なマスキング領域の正確な意味発見と制御が容易になり,アノテーションの必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T13:46:12Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Unveiling Structural Memorization: Structural Membership Inference Attack for Text-to-Image Diffusion Models [17.946671657675022]
メンバー推論攻撃(MIA)は、プライバシ保護のためのツールとして機能するよう提案されている。
テキストから画像への拡散モデルに適した,シンプルで効果的なMIA手法を提案する。
我々の手法は、最先端の性能を達成するだけでなく、様々な歪みに対して顕著な堅牢性を示す。
論文 参考訳(メタデータ) (2024-07-18T08:07:28Z) - Memorized Images in Diffusion Models share a Subspace that can be Located and Deleted [15.162296378581853]
大規模テキスト・画像拡散モデルはテキスト入力から高品質な画像を生成するのに優れている。
研究は、トレーニングデータを記憶し複製する傾向を示すため、懸念が生じる。
データ重複、複製されたキャプション、トークンのトリガーなどの原因を探る。
論文 参考訳(メタデータ) (2024-06-01T15:47:13Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。
本提案では,ガウス分布を用いた地域表現をモデル化する。
論文 参考訳(メタデータ) (2024-03-15T12:41:30Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。