論文の概要: Interpretable Diffusion via Information Decomposition
- arxiv url: http://arxiv.org/abs/2310.07972v3
- Date: Sat, 18 May 2024 16:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:20:28.763892
- Title: Interpretable Diffusion via Information Decomposition
- Title(参考訳): 情報分解による解釈可能な拡散
- Authors: Xianghao Kong, Ollie Liu, Han Li, Dani Yogatama, Greg Ver Steeg,
- Abstract要約: 拡散モデルにより学習された関係を,拡散と情報分解の正確な関係に注意して照らし出す。
拡散モデルでは、相互情報の自然な非負分解が出現し、画像中の単語と画素間の情報的関係を定量化できることを示す。
- 参考スコア(独自算出の注目度): 42.16196396888697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models enable conditional generation and density modeling of complex relationships like images and text. However, the nature of the learned relationships is opaque making it difficult to understand precisely what relationships between words and parts of an image are captured, or to predict the effect of an intervention. We illuminate the fine-grained relationships learned by diffusion models by noticing a precise relationship between diffusion and information decomposition. Exact expressions for mutual information and conditional mutual information can be written in terms of the denoising model. Furthermore, pointwise estimates can be easily estimated as well, allowing us to ask questions about the relationships between specific images and captions. Decomposing information even further to understand which variables in a high-dimensional space carry information is a long-standing problem. For diffusion models, we show that a natural non-negative decomposition of mutual information emerges, allowing us to quantify informative relationships between words and pixels in an image. We exploit these new relations to measure the compositional understanding of diffusion models, to do unsupervised localization of objects in images, and to measure effects when selectively editing images through prompt interventions.
- Abstract(参考訳): デノイング拡散モデルは、画像やテキストのような複雑な関係の条件生成と密度モデリングを可能にする。
しかし、学習された関係の性質は不透明であるため、どの単語と画像の部分の関係が捉えられるのかを正確に理解したり、介入の効果を予測することは困難である。
拡散モデルにより学習された微粒な関係を,拡散と情報分解の正確な関係に注意して照明する。
具体的相互情報表現と条件付き相互情報表現は、デノナイジングモデルを用いて記述することができる。
さらに、ポイントワイズ推定も容易であり、特定の画像とキャプションの関係について質問することができる。
さらに情報を分解して、高次元空間のどの変数が情報を運ぶかを理解することは、長年にわたる問題である。
拡散モデルでは、相互情報の自然な非負分解が出現し、画像中の単語と画素間の情報的関係を定量化できることを示す。
我々はこれらの新たな関係を利用して拡散モデルの構成的理解を計測し、画像中の物体の教師なしの局所化を行い、迅速な介入を通して画像の選択的編集を行う際の効果を測定する。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - How Diffusion Models Learn to Factorize and Compose [14.161975556325796]
拡散モデルは、トレーニングセットに表示されない可能性のある要素を組み合わせた、フォトリアリスティックな画像を生成することができる。
本研究では,拡散モデルが構成可能な特徴の意味的意味的・要因的表現を学習するかどうかを考察する。
論文 参考訳(メタデータ) (2024-08-23T17:59:03Z) - DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。
個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。
PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-06-07T18:17:17Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。