論文の概要: Diffusion Classifiers Understand Compositionality, but Conditions Apply
- arxiv url: http://arxiv.org/abs/2505.17955v1
- Date: Fri, 23 May 2025 14:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.150455
- Title: Diffusion Classifiers Understand Compositionality, but Conditions Apply
- Title(参考訳): 拡散分類器は構成性に見合うが条件は適用できる
- Authors: Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach,
- Abstract要約: 本稿では,多種多様な構成課題における拡散分類器の識別能力について検討する。
具体的には,10のデータセットと30以上のタスクにまたがる3つの拡散モデル(SD 1.5,2.0,および3m)について検討する。
また,拡散モデル自体が生成した画像からなる新たな診断ベンチマークも導入した。
- 参考スコア(独自算出の注目度): 35.37894720627495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding visual scenes is fundamental to human intelligence. While discriminative models have significantly advanced computer vision, they often struggle with compositional understanding. In contrast, recent generative text-to-image diffusion models excel at synthesizing complex scenes, suggesting inherent compositional capabilities. Building on this, zero-shot diffusion classifiers have been proposed to repurpose diffusion models for discriminative tasks. While prior work offered promising results in discriminative compositional scenarios, these results remain preliminary due to a small number of benchmarks and a relatively shallow analysis of conditions under which the models succeed. To address this, we present a comprehensive study of the discriminative capabilities of diffusion classifiers on a wide range of compositional tasks. Specifically, our study covers three diffusion models (SD 1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks. Further, we shed light on the role that target dataset domains play in respective performance; to isolate the domain effects, we introduce a new diagnostic benchmark Self-Bench comprised of images created by diffusion models themselves. Finally, we explore the importance of timestep weighting and uncover a relationship between domain gap and timestep sensitivity, particularly for SD3-m. To sum up, diffusion classifiers understand compositionality, but conditions apply! Code and dataset are available at https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
- Abstract(参考訳): 視覚的なシーンを理解することは人間の知性の基本である。
識別モデルはコンピュータビジョンが著しく進歩しているが、しばしば構成的理解に苦しむ。
対照的に、最近の生成的テキスト・画像拡散モデルは複雑なシーンの合成に優れ、固有の構成能力を示唆している。
これに基づいてゼロショット拡散分類器が、識別的タスクに対する拡散モデルを再利用するために提案されている。
以前の研究では、差別的な構成シナリオにおいて有望な結果が得られたが、これらの結果は、少数のベンチマークと、モデルが成功する条件の比較的浅い分析のため、予備的なままである。
そこで本研究では,多種多様な構成課題における拡散分類器の識別能力について包括的に検討する。
具体的には,3つの拡散モデル(SD 1.5,2.0,そして,初めて10のデータセットと30以上のタスクにまたがる3mの拡散モデルについて検討した。
さらに、ターゲットとなるデータセットドメインがそれぞれのパフォーマンスで果たす役割について光を当て、ドメイン効果を分離するために、拡散モデル自体によって生成された画像からなる新たな診断ベンチマーク「セルフベンチ」を導入する。
最後に,時間差重み付けの重要性について検討し,特にSD3-mについて,領域ギャップと時間差感度の関係を明らかにする。
要約すると、拡散分類器は構成性を理解するが、条件は適用される!
コードとデータセットはhttps://github.com/eugene6923/Diffusion-Classifiers-Compositionality.orgで公開されている。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T21:20:43Z) - Stable Diffusion for Data Augmentation in COCO and Weed Datasets [5.81198182644659]
生成モデルは、コンピュータビジョンからインテリアデザインまで、さまざまなタスクに影響を与えている。強力な拡散モデルであるStable Diffusionは、テキストプロンプトや参照画像から複雑な詳細を持つ高解像度画像の作成を可能にする。
本研究は,7つの共通カテゴリーと3つの広く分布する雑草を評価した結果,安定拡散の有効性について検討した。
画像スパースデータセットの強化において,安定拡散の可能性を示した。
論文 参考訳(メタデータ) (2023-12-07T02:23:32Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。