Fugu-MT 論文翻訳(概要): I2AM: Interpreting Image-to-Image Latent Diffusion Models via Attribution Maps

論文の概要: I2AM: Interpreting Image-to-Image Latent Diffusion Models via Attribution Maps

arxiv url: http://arxiv.org/abs/2407.12331v1
Date: Wed, 17 Jul 2024 06:15:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 18:17:30.669891
Title: I2AM: Interpreting Image-to-Image Latent Diffusion Models via Attribution Maps
Title（参考訳）: I2AM:属性マップによる画像から画像への遅延拡散モデルの解釈
Authors: Junseo Park, Hyeryung Jang,
Abstract要約: 本稿では,パッチレベルのクロスアテンションスコアを集約し,潜時拡散モデルの解釈可能性を高めるイメージ・ツー・イメージマップI2AM法を提案する。 I2AMは、画像から画像への帰属分析を容易にし、拡散モデルが時間と頭において重要な特徴をどのように優先順位づけするかを観察できるようにする。我々の理解をさらに深めるために、参照ベース画像の塗装作業に適した新しい評価基準を導入する。
参考スコア（独自算出の注目度）: 8.195126516665914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale diffusion models have made significant advancements in the field of image generation, especially through the use of cross-attention mechanisms that guide image formation based on textual descriptions. While the analysis of text-guided cross-attention in diffusion models has been extensively studied in recent years, its application in image-to-image diffusion models remains underexplored. This paper introduces the Image-to-Image Attribution Maps I2AM method, which aggregates patch-level cross-attention scores to enhance the interpretability of latent diffusion models across time steps, heads, and attention layers. I2AM facilitates detailed image-to-image attribution analysis, enabling observation of how diffusion models prioritize key features over time and head during the image generation process from reference images. Through extensive experiments, we first visualize the attribution maps of both generated and reference images, verifying that critical information from the reference image is effectively incorporated into the generated image, and vice versa. To further assess our understanding, we introduce a new evaluation metric tailored for reference-based image inpainting tasks. This metric, measuring the consistency between the attribution maps of generated and reference images, shows a strong correlation with established performance metrics for inpainting tasks, validating the potential use of I2AM in future research endeavors.
Abstract（参考訳）: 大規模拡散モデルでは、特にテキスト記述に基づく画像形成を導くクロスアテンション機構を用いることにより、画像生成の分野で大きな進歩を遂げている。近年, 拡散モデルにおけるテキスト誘導的相互注意の解析が盛んに行われているが, 画像間拡散モデルへの応用はいまだ検討されていない。本稿では,時間ステップ,頭部,注意層をまたいだ潜伏拡散モデルの解釈可能性を高めるために,パッチレベルのクロスアテンションスコアを集約するイメージ・ツー・イメージ・アトリビューション・マップI2AM法を提案する。 I2AMは、参照画像から画像を生成する過程において、時間と頭によって拡散モデルがどのように重要な特徴を優先するかを観察する、詳細な画像から画像への帰属分析を容易にする。広範にわたる実験を通して、生成画像と参照画像の両方の属性マップを視覚化し、参照画像からの臨界情報が生成画像に効果的に組み込まれていることを検証する。我々の理解をさらに深めるために、参照ベース画像の塗装作業に適した新しい評価基準を導入する。生成した画像の属性マップと参照画像の一貫性を計測するこの指標は、既存の性能指標との強い相関関係を示し、今後の研究におけるI2AMの活用の可能性を検証する。

関連論文リスト

Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文参考訳（メタデータ） (2024-08-29T03:12:04Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。 MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。 2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文参考訳（メタデータ） (2024-07-26T16:30:18Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文参考訳（メタデータ） (2024-03-17T01:27:00Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-11T02:18:27Z)
Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文参考訳（メタデータ） (2024-02-15T05:07:54Z)
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文参考訳（メタデータ） (2024-01-22T07:34:06Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。 FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文参考訳（メタデータ） (2023-08-02T13:43:03Z)
Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis [78.28620571530706]
大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
論文参考訳（メタデータ） (2022-12-09T18:30:24Z)
i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文参考訳（メタデータ） (2022-10-20T17:59:54Z)
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文参考訳（メタデータ） (2021-10-09T02:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。