論文の概要: Diffusion Model with Cross Attention as an Inductive Bias for
Disentanglement
- arxiv url: http://arxiv.org/abs/2402.09712v1
- Date: Thu, 15 Feb 2024 05:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:05:25.819440
- Title: Diffusion Model with Cross Attention as an Inductive Bias for
Disentanglement
- Title(参考訳): 絡み合いの誘導バイアスとしての交差注意拡散モデル
- Authors: Tao Yang, Cuiling Lan, Yan Lu, Nanning zheng
- Abstract要約: 遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
- 参考スコア(独自算出の注目度): 64.42792944778728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disentangled representation learning strives to extract the intrinsic factors
within observed data. Factorizing these representations in an unsupervised
manner is notably challenging and usually requires tailored loss functions or
specific structural designs. In this paper, we introduce a new perspective and
framework, demonstrating that diffusion models with cross-attention can serve
as a powerful inductive bias to facilitate the learning of disentangled
representations. We propose to encode an image to a set of concept tokens and
treat them as the condition of the latent diffusion for image reconstruction,
where cross-attention over the concept tokens is used to bridge the interaction
between the encoder and diffusion. Without any additional regularization, this
framework achieves superior disentanglement performance on the benchmark
datasets, surpassing all previous methods with intricate designs. We have
conducted comprehensive ablation studies and visualization analysis, shedding
light on the functioning of this model. This is the first work to reveal the
potent disentanglement capability of diffusion models with cross-attention,
requiring no complex designs. We anticipate that our findings will inspire more
investigation on exploring diffusion for disentangled representation learning
towards more sophisticated data analysis and understanding.
- Abstract(参考訳): 遠方表現学習は、観測データ内の本質的要因を抽出する。
これらの表現を教師なしの方法で分解することは特に困難であり、通常、調整された損失関数や特定の構造設計を必要とする。
本稿では,非交叉表現の学習を容易にするために,クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す,新しい視点と枠組みを紹介する。
本稿では,概念トークンの集合に画像をエンコードし,それを画像再構成のための潜伏拡散条件として扱うことを提案する。
さらなる正規化がなければ、このフレームワークはベンチマークデータセット上で優れた不整合性能を達成し、複雑な設計で以前のすべてのメソッドを上回ります。
我々は,このモデルの機能に関する包括的アブレーション研究と可視化解析を行った。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
我々は、より洗練されたデータ分析と理解に向けて、不整合表現学習のための拡散を探究するためのさらなる調査を期待する。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Diffusion Models Trained with Large Data Are Transferable Visual Models [51.9937114613558]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Explaining generative diffusion models via visual analysis for
interpretable decision-making process [28.552283701883766]
本稿では,モデルが生成する視覚的概念の観点から,拡散過程を解釈する3つの研究課題を提案する。
我々は,拡散過程を可視化し,上記の研究課題に答えて,拡散過程を人間に理解しやすいものにするためのツールを考案した。
論文 参考訳(メタデータ) (2024-02-16T02:12:20Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T21:20:43Z) - Directional diffusion models for graph representation learning [9.457273750874357]
我々は方向拡散モデルと呼ばれる新しいモデルのクラスを提案する。
これらのモデルは前方拡散過程にデータ依存、異方性、指向性ノイズを含む。
我々は,2つのグラフ表現学習タスクに焦点をあてて,12の公開データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-22T21:27:48Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。