論文の概要: Do text-free diffusion models learn discriminative visual
representations?
- arxiv url: http://arxiv.org/abs/2311.17921v1
- Date: Wed, 29 Nov 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:12:07.319703
- Title: Do text-free diffusion models learn discriminative visual
representations?
- Title(参考訳): テキストフリー拡散モデルは識別的視覚表現を学習するか?
- Authors: Soumik Mukhopadhyay and Matthew Gwilliam and Yosuke Yamaguchi and
Vatsal Agarwal and Namitha Padmanabhan and Archana Swaminathan and Tianyi
Zhou and Abhinav Shrivastava
- Abstract要約: 本稿では,タスクの両ファミリーを同時に扱うモデルである統一表現学習者の可能性について検討する。
生成タスクの最先端手法である拡散モデル(拡散モデル)を素数候補として開発する。
拡散モデルはGANよりも優れており、融合とフィードバック機構により、差別的タスクのための最先端の教師なし画像表現学習手法と競合することができる。
- 参考スコア(独自算出の注目度): 43.05419164830729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While many unsupervised learning models focus on one family of tasks, either
generative or discriminative, we explore the possibility of a unified
representation learner: a model which addresses both families of tasks
simultaneously. We identify diffusion models, a state-of-the-art method for
generative tasks, as a prime candidate. Such models involve training a U-Net to
iteratively predict and remove noise, and the resulting model can synthesize
high-fidelity, diverse, novel images. We find that the intermediate feature
maps of the U-Net are diverse, discriminative feature representations. We
propose a novel attention mechanism for pooling feature maps and further
leverage this mechanism as DifFormer, a transformer feature fusion of features
from different diffusion U-Net blocks and noise steps. We also develop DifFeed,
a novel feedback mechanism tailored to diffusion. We find that diffusion models
are better than GANs, and, with our fusion and feedback mechanisms, can compete
with state-of-the-art unsupervised image representation learning methods for
discriminative tasks - image classification with full and semi-supervision,
transfer for fine-grained classification, object detection and segmentation,
and semantic segmentation. Our project website
(https://mgwillia.github.io/diffssl/) and code
(https://github.com/soumik-kanad/diffssl) are available publicly.
- Abstract(参考訳): 多くの教師なし学習モデルは、生成的あるいは差別的なタスクの1つのファミリーに焦点を当てているが、同時にタスクのファミリーに対処するモデルである統一表現学習者の可能性を探る。
生成タスクのための最先端手法である拡散モデルを素候補として同定する。
このようなモデルには、ノイズを反復的に予測して除去するU-Netのトレーニングが含まれており、結果として得られたモデルは高忠実で多様な新しい画像を合成することができる。
U-Netの中間特徴写像は多様で差別的な特徴表現であることがわかった。
本稿では,異なる拡散U-Netブロックとノイズステップから特徴を融合したトランスフォーマーであるDifFormerとして,特徴マップをプールするための新しいアテンション機構を提案する。
また拡散に適した新しいフィードバック機構であるDifFeedを開発した。
拡散モデルはgansよりも優れており、我々の融合とフィードバックのメカニズムにより、識別タスクのための最先端の教師なし画像表現学習手法、すなわちフルおよびセミスーパービジョンによる画像分類、細粒度分類のための転送、オブジェクト検出とセグメンテーション、セマンティックセグメンテーションと競合することができる。
プロジェクトのWebサイト(https://mgwillia.github.io/diffssl/)とコード(https://github.com/soumik-kanad/diffssl)が公開されている。
関連論文リスト
- Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。