論文の概要: Diffusion Model with Cross Attention as an Inductive Bias for
Disentanglement
- arxiv url: http://arxiv.org/abs/2402.09712v1
- Date: Thu, 15 Feb 2024 05:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:05:25.819440
- Title: Diffusion Model with Cross Attention as an Inductive Bias for
Disentanglement
- Title(参考訳): 絡み合いの誘導バイアスとしての交差注意拡散モデル
- Authors: Tao Yang, Cuiling Lan, Yan Lu, Nanning zheng
- Abstract要約: 遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
- 参考スコア(独自算出の注目度): 64.42792944778728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disentangled representation learning strives to extract the intrinsic factors
within observed data. Factorizing these representations in an unsupervised
manner is notably challenging and usually requires tailored loss functions or
specific structural designs. In this paper, we introduce a new perspective and
framework, demonstrating that diffusion models with cross-attention can serve
as a powerful inductive bias to facilitate the learning of disentangled
representations. We propose to encode an image to a set of concept tokens and
treat them as the condition of the latent diffusion for image reconstruction,
where cross-attention over the concept tokens is used to bridge the interaction
between the encoder and diffusion. Without any additional regularization, this
framework achieves superior disentanglement performance on the benchmark
datasets, surpassing all previous methods with intricate designs. We have
conducted comprehensive ablation studies and visualization analysis, shedding
light on the functioning of this model. This is the first work to reveal the
potent disentanglement capability of diffusion models with cross-attention,
requiring no complex designs. We anticipate that our findings will inspire more
investigation on exploring diffusion for disentangled representation learning
towards more sophisticated data analysis and understanding.
- Abstract(参考訳): 遠方表現学習は、観測データ内の本質的要因を抽出する。
これらの表現を教師なしの方法で分解することは特に困難であり、通常、調整された損失関数や特定の構造設計を必要とする。
本稿では,非交叉表現の学習を容易にするために,クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す,新しい視点と枠組みを紹介する。
本稿では,概念トークンの集合に画像をエンコードし,それを画像再構成のための潜伏拡散条件として扱うことを提案する。
さらなる正規化がなければ、このフレームワークはベンチマークデータセット上で優れた不整合性能を達成し、複雑な設計で以前のすべてのメソッドを上回ります。
我々は,このモデルの機能に関する包括的アブレーション研究と可視化解析を行った。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
我々は、より洗練されたデータ分析と理解に向けて、不整合表現学習のための拡散を探究するためのさらなる調査を期待する。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。
個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。
PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-06-07T18:17:17Z) - Explaining generative diffusion models via visual analysis for
interpretable decision-making process [28.552283701883766]
本稿では,モデルが生成する視覚的概念の観点から,拡散過程を解釈する3つの研究課題を提案する。
我々は,拡散過程を可視化し,上記の研究課題に答えて,拡散過程を人間に理解しやすいものにするためのツールを考案した。
論文 参考訳(メタデータ) (2024-02-16T02:12:20Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Directional diffusion models for graph representation learning [9.457273750874357]
我々は方向拡散モデルと呼ばれる新しいモデルのクラスを提案する。
これらのモデルは前方拡散過程にデータ依存、異方性、指向性ノイズを含む。
我々は,2つのグラフ表現学習タスクに焦点をあてて,12の公開データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-22T21:27:48Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。