論文の概要: CUPID: Contextual Understanding of Prompt-conditioned Image Distributions
- arxiv url: http://arxiv.org/abs/2406.07699v1
- Date: Tue, 11 Jun 2024 20:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:16:01.827442
- Title: CUPID: Contextual Understanding of Prompt-conditioned Image Distributions
- Title(参考訳): CUPID: プロンプト条件付き画像分布の文脈的理解
- Authors: Yayan Zhao, Mingwei Li, Matthew Berger,
- Abstract要約: CUPIDは、プロンプト条件付き画像分布の文脈的理解のための可視化手法である。
CUPIDの中心は高次元分布を可視化する新しい手法であり、オブジェクトのコンテキスト化された埋め込みを低次元空間にマッピングする。
このような埋め込みによって、分布内のオブジェクトの健全なスタイルを発見できるだけでなく、異常なオブジェクトスタイルやまれなオブジェクトスタイルを識別できることを示す。
- 参考スコア(独自算出の注目度): 6.936466872687605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CUPID: a visualization method for the contextual understanding of prompt-conditioned image distributions. CUPID targets the visual analysis of distributions produced by modern text-to-image generative models, wherein a user can specify a scene via natural language, and the model generates a set of images, each intended to satisfy the user's description. CUPID is designed to help understand the resulting distribution, using contextual cues to facilitate analysis: objects mentioned in the prompt, novel, synthesized objects not explicitly mentioned, and their potential relationships. Central to CUPID is a novel method for visualizing high-dimensional distributions, wherein contextualized embeddings of objects, those found within images, are mapped to a low-dimensional space via density-based embeddings. We show how such embeddings allows one to discover salient styles of objects within a distribution, as well as identify anomalous, or rare, object styles. Moreover, we introduce conditional density embeddings, whereby conditioning on a given object allows one to compare object dependencies within the distribution. We employ CUPID for analyzing image distributions produced by large-scale diffusion models, where our experimental results offer insights on language misunderstanding from such models and biases in object composition, while also providing an interface for discovery of typical, or rare, synthesized scenes.
- Abstract(参考訳): 本稿では,プロンプト条件付き画像分布の文脈的理解のための可視化手法CUPIDを提案する。
CUPIDは、ユーザが自然言語でシーンを指定できる現代のテキスト・画像生成モデルによって生成された分布の視覚的解析を目標とし、そのモデルがユーザの記述を満足する一連の画像を生成する。
CUPIDは、結果の分布を理解するために設計されており、文脈的手がかりを用いて分析を容易にする。
CUPIDの中心は高次元分布を可視化する新しい手法であり、画像内の物体の文脈的埋め込みは密度に基づく埋め込みによって低次元空間にマッピングされる。
このような埋め込みによって、分布内のオブジェクトの健全なスタイルを発見できるだけでなく、異常なオブジェクトスタイルやまれなオブジェクトスタイルを識別できることを示す。
さらに、条件密度埋め込みを導入し、与えられたオブジェクトの条件付けにより、分布内のオブジェクトの依存関係を比較することができる。
大規模拡散モデルにより生成された画像の分布解析にCUPIDを用いており、実験結果から、そのようなモデルからの言語誤解やオブジェクト構成のバイアスについての洞察が得られ、また、典型的あるいは稀な合成シーンの発見のためのインターフェースを提供する。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition [13.341996441742374]
DiffPopは、複数のオブジェクトと対応するシーンイメージのスケールと空間の関係を学習するフレームワークである。
本研究では,拡散合成画像上での人間のラベル付けを生かした,ループ内人間パイプラインを開発した。
データセットとコードはリリースされます。
論文 参考訳(メタデータ) (2024-06-12T03:40:17Z) - DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。
個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。
PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-06-07T18:17:17Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。