論文の概要: DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery
- arxiv url: http://arxiv.org/abs/2303.09813v1
- Date: Fri, 17 Mar 2023 07:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:21:36.101340
- Title: DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery
- Title(参考訳): diffusionseg: 教師なしオブジェクト発見への拡散適応
- Authors: Chaofan Ma, Yuhuan Yang, Chen Ju, Fei Zhang, Jinxiang Liu, Yu Wang, Ya
Zhang, Yanfeng Wang
- Abstract要約: DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
- 参考スコア(独自算出の注目度): 20.787180028571694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from a large corpus of data, pre-trained models have achieved
impressive progress nowadays. As popular generative pre-training, diffusion
models capture both low-level visual knowledge and high-level semantic
relations. In this paper, we propose to exploit such knowledgeable diffusion
models for mainstream discriminative tasks, i.e., unsupervised object
discovery: saliency segmentation and object localization. However, the
challenges exist as there is one structural difference between generative and
discriminative models, which limits the direct use. Besides, the lack of
explicitly labeled data significantly limits performance in unsupervised
settings. To tackle these issues, we introduce DiffusionSeg, one novel
synthesis-exploitation framework containing two-stage strategies. To alleviate
data insufficiency, we synthesize abundant images, and propose a novel
training-free AttentionCut to obtain masks in the first synthesis stage. In the
second exploitation stage, to bridge the structural gap, we use the inversion
technique, to map the given image back to diffusion features. These features
can be directly used by downstream architectures. Extensive experiments and
ablation studies demonstrate the superiority of adapting diffusion for
unsupervised object discovery.
- Abstract(参考訳): 大量のデータから学び、事前学習されたモデルは、今日、驚くべき進歩を遂げている。
一般的な生成前学習として、拡散モデルは低レベルの視覚知識と高レベルの意味関係の両方を捉える。
本稿では,非教師付き物体発見(saliency segmentation)とオブジェクトローカライゼーション(object localization)という主観的判別タスクに対して,そのような知識に富む拡散モデルを適用することを提案する。
しかし、生成的モデルと識別的モデルの間には1つの構造的な違いがあり、直接の使用が制限される。
さらに、明示的なラベル付きデータの欠如は、教師なし設定のパフォーマンスを著しく制限している。
これらの課題に対処するために,2段階戦略を含む新しい合成探索フレームワークであるDiffusionSegを紹介する。
データ不足を軽減するため、豊富な画像を合成し、第1合成段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造ギャップを橋渡しするために、与えられた画像を拡散特徴にマップするインバージョン技術を使用します。
これらの機能は、下流アーキテクチャで直接使用できる。
広範囲にわたる実験とアブレーション研究は、教師なし物体発見に対する適応拡散の優位性を示している。
関連論文リスト
- MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion [14.907473847787541]
人間の骨格モデリングのための統合フレームワークとして,Masked Diffusion Conditional (MacDiff)を提案する。
まず,拡散モデルを用いて効率的な骨格表現学習を行う。
MacDiffは、生成タスクの能力を維持しながら、表現学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-16T17:06:10Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation [48.25619775814776]
本稿では,拡散モードに基づく正データ生成を用いた新しい教師なしコントラスト学習手法であるDiffAugを提案する。
DiffAugはセマンティックエンコーダと条件拡散モデルから構成されており、条件拡散モデルはセマンティックエンコーダに条件付された新しい正のサンプルを生成する。
実験的評価により、DiffAugは、DNA配列、視覚、および生体機能データセットのハンドデザインおよびSOTAモデルに基づく拡張手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-10T13:28:46Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。