論文の概要: Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies
- arxiv url: http://arxiv.org/abs/2504.07008v1
- Date: Wed, 09 Apr 2025 16:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:04.837152
- Title: Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies
- Title(参考訳): 位置埋め込みと異常を含む潜在拡散U-Net表現
- Authors: Jonas Loos, Lorenz Linhardt,
- Abstract要約: 表現的類似性とノルムを用いて、人気のある安定拡散モデルを分析する。
その結果,(1)中間表現に学習された位置埋め込みの存在,(2)高相似コーナーアーティファクト,(3)異常な高ノルムアーティファクトの3つの現象が明らかになった。
- 参考スコア(独自算出の注目度): 2.1261727383260043
- License:
- Abstract: Diffusion models have demonstrated remarkable capabilities in synthesizing realistic images, spurring interest in using their representations for various downstream tasks. To better understand the robustness of these representations, we analyze popular Stable Diffusion models using representational similarity and norms. Our findings reveal three phenomena: (1) the presence of a learned positional embedding in intermediate representations, (2) high-similarity corner artifacts, and (3) anomalous high-norm artifacts. These findings underscore the need to further investigate the properties of diffusion model representations before considering them for downstream tasks that require robust features. Project page: https://jonasloos.github.io/sd-representation-anomalies
- Abstract(参考訳): 拡散モデルは、現実的な画像を合成する際、顕著な能力を示し、下流の様々なタスクにそれらの表現を使うことへの関心を喚起している。
これらの表現の堅牢性をよりよく理解するために、表現的類似性とノルムを用いて人気のある安定拡散モデルを解析する。
その結果,(1)中間表現に学習された位置埋め込みの存在,(2)高相似コーナーアーティファクト,(3)異常な高ノルムアーティファクトの3つの現象が明らかになった。
これらの知見は、より堅牢な特徴を必要とする下流タスクについて検討する前に、拡散モデル表現の特性をさらに調査する必要性を浮き彫りにした。
プロジェクトページ: https://jonasloos.github.io/sd-representation-anomalies
関連論文リスト
- DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。
大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。
3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文 参考訳(メタデータ) (2024-09-15T04:09:12Z) - Comparative Analysis of Generative Models: Enhancing Image Synthesis with VAEs, GANs, and Stable Diffusion [0.0]
本稿では,変分オートエンコーダ(VAE),GAN(Generative Adversarial Networks),安定拡散(Stable Diffusion)の3つの主要な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-08-16T13:50:50Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - An Analysis of Human Alignment of Latent Diffusion Models [4.301861805545143]
大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。
それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。
このような表現が3重の奇数ワンアウトタスクにおいて、人間の反応にどの程度うまく一致しているかを分析する。
論文 参考訳(メタデータ) (2024-03-13T12:31:08Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Beyond Surface Statistics: Scene Representations in a Latent Diffusion
Model [52.634378583311054]
潜在拡散モデル(LDM)は現実的な画像を生成するが、これらのモデルの内部構造は謎のままである。
本研究では, LDMは単純なシーン幾何学の内部表現を作成し, 利用するのかという, 基本的な解釈可能性の問題について考察する。
線形プローブを用いて,LDMの内部活性化が3次元深度データの線形表現と,有向物体/背景像の線形表現を符号化していることを示す。
論文 参考訳(メタデータ) (2023-06-09T07:34:34Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Intriguing properties of synthetic images: from generative adversarial
networks to diffusion models [19.448196464632]
実際の画像と偽画像を区別する上で,どの画像の特徴がより優れているかを知ることが重要である。
本稿では, 実画像と生成画像の最も法学的に関係した特徴を発見することを目的とした, 異なる家系の多数の画像生成装置の系統的研究について報告する。
論文 参考訳(メタデータ) (2023-04-13T11:13:19Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。