Fugu-MT 論文翻訳(概要): Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement

論文の概要: Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement

arxiv url: http://arxiv.org/abs/2402.09712v1
Date: Thu, 15 Feb 2024 05:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 17:05:25.819440
Title: Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement
Title（参考訳）: 絡み合いの誘導バイアスとしての交差注意拡散モデル
Authors: Tao Yang, Cuiling Lan, Yan Lu, Nanning zheng
Abstract要約: 遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
参考スコア（独自算出の注目度）: 64.42792944778728
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Disentangled representation learning strives to extract the intrinsic factors within observed data. Factorizing these representations in an unsupervised manner is notably challenging and usually requires tailored loss functions or specific structural designs. In this paper, we introduce a new perspective and framework, demonstrating that diffusion models with cross-attention can serve as a powerful inductive bias to facilitate the learning of disentangled representations. We propose to encode an image to a set of concept tokens and treat them as the condition of the latent diffusion for image reconstruction, where cross-attention over the concept tokens is used to bridge the interaction between the encoder and diffusion. Without any additional regularization, this framework achieves superior disentanglement performance on the benchmark datasets, surpassing all previous methods with intricate designs. We have conducted comprehensive ablation studies and visualization analysis, shedding light on the functioning of this model. This is the first work to reveal the potent disentanglement capability of diffusion models with cross-attention, requiring no complex designs. We anticipate that our findings will inspire more investigation on exploring diffusion for disentangled representation learning towards more sophisticated data analysis and understanding.
Abstract（参考訳）: 遠方表現学習は、観測データ内の本質的要因を抽出する。これらの表現を教師なしの方法で分解することは特に困難であり、通常、調整された損失関数や特定の構造設計を必要とする。本稿では,非交叉表現の学習を容易にするために,クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す,新しい視点と枠組みを紹介する。本稿では,概念トークンの集合に画像をエンコードし,それを画像再構成のための潜伏拡散条件として扱うことを提案する。さらなる正規化がなければ、このフレームワークはベンチマークデータセット上で優れた不整合性能を達成し、複雑な設計で以前のすべてのメソッドを上回ります。我々は,このモデルの機能に関する包括的アブレーション研究と可視化解析を行った。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。我々は、より洗練されたデータ分析と理解に向けて、不整合表現学習のための拡散を探究するためのさらなる調査を期待する。

関連論文リスト

Provable Maximum Entropy Manifold Exploration via Diffusion Models [58.89696361871563]
探索は科学的な発見のような現実世界の意思決定問題を解決するために重要である。本稿では,事前学習した拡散モデルにより暗黙的に定義された近似データ多様体に対して,探索をエントロピーとしてキャストする新しいフレームワークを提案する。本研究では,事前学習した拡散モデルの逐次微調整として探索問題を解くミラー降下に基づくアルゴリズムを開発する。
論文参考訳（メタデータ） (2025-06-18T11:59:15Z)
G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models [38.44872934965588]
本稿では, 大規模テキスト・画像モデルを用いて不正確な拡散(IS)課題に取り組むことの問題点について考察する。我々は,原画像とマスク条件生成画像とのパターンの相違を利用して,粗大なセグメント化改善を容易にする。
論文参考訳（メタデータ） (2025-06-02T11:05:28Z)
Critical Iterative Denoising: A Discrete Generative Model Applied to Graphs [52.50288418639075]
本稿では, 個別拡散を単純化し, 時間とともに条件付き独立性を仮定することで問題を回避できる, イテレーティブ・デノナイジング(Iterative Denoising)という新しい枠組みを提案する。実験により,提案手法はグラフ生成タスクにおいて既存の離散拡散ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-03-27T15:08:58Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文参考訳（メタデータ） (2024-06-17T01:49:27Z)
DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。 PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文参考訳（メタデータ） (2024-06-07T18:17:17Z)
Explaining generative diffusion models via visual analysis for interpretable decision-making process [28.552283701883766]
本稿では,モデルが生成する視覚的概念の観点から,拡散過程を解釈する3つの研究課題を提案する。我々は,拡散過程を可視化し,上記の研究課題に答えて,拡散過程を人間に理解しやすいものにするためのツールを考案した。
論文参考訳（メタデータ） (2024-02-16T02:12:20Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Directional diffusion models for graph representation learning [9.457273750874357]
我々は方向拡散モデルと呼ばれる新しいモデルのクラスを提案する。これらのモデルは前方拡散過程にデータ依存、異方性、指向性ノイズを含む。我々は,2つのグラフ表現学習タスクに焦点をあてて,12の公開データセットに関する広範な実験を行った。
論文参考訳（メタデータ） (2023-06-22T21:27:48Z)
DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文参考訳（メタデータ） (2023-03-17T07:47:55Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。