論文の概要: ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
- arxiv url: http://arxiv.org/abs/2502.04320v1
- Date: Thu, 06 Feb 2025 18:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:31.945297
- Title: ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
- Title(参考訳): ConceptAttention: 拡散変換器は高度に解釈可能な特徴を学習する
- Authors: Alec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau,
- Abstract要約: ConceptAttentionは、画像内のテキスト概念を正確に特定する高品質な唾液マップを生成する。
ゼロショット画像セグメンテーションベンチマークでは、最先端のパフォーマンスも達成している。
私たちの研究は、FluxのようなマルチモーダルなDiTモデルの表現が、セグメンテーションのようなビジョンタスクや、CLIPのようなマルチモーダルな基礎モデルよりも優れているという最初の証拠に貢献しています。
- 参考スコア(独自算出の注目度): 19.237090633881984
- License:
- Abstract: Do the rich representations of multi-modal diffusion transformers (DiTs) exhibit unique properties that enhance their interpretability? We introduce ConceptAttention, a novel method that leverages the expressive power of DiT attention layers to generate high-quality saliency maps that precisely locate textual concepts within images. Without requiring additional training, ConceptAttention repurposes the parameters of DiT attention layers to produce highly contextualized concept embeddings, contributing the major discovery that performing linear projections in the output space of DiT attention layers yields significantly sharper saliency maps compared to commonly used cross-attention mechanisms. Remarkably, ConceptAttention even achieves state-of-the-art performance on zero-shot image segmentation benchmarks, outperforming 11 other zero-shot interpretability methods on the ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our work contributes the first evidence that the representations of multi-modal DiT models like Flux are highly transferable to vision tasks like segmentation, even outperforming multi-modal foundation models like CLIP.
- Abstract(参考訳): 多モード拡散変換器(DiT)のリッチ表現は、その解釈可能性を高めるユニークな特性を示すか?
本研究では,DiTアテンション層の表現力を利用して画像中のテキスト概念を正確に特定する高品質なサリエンシマップを生成する新しい手法であるConceptAttentionを紹介する。
追加のトレーニングを必要とせず、ConceptAttentionは、高文脈で認識された概念埋め込みを生成するために、DiTアテンション層のパラメータを再利用し、DiTアテンション層の出力空間で線形射影を行うことで、一般的に使用されるクロスアテンション機構よりもはるかにシャープなサリエンシマップが得られるという大きな発見に貢献した。
注目すべきは、ConceptAttentionはゼロショットイメージセグメンテーションベンチマークで最先端のパフォーマンスを達成し、ImageNet-SegmentationデータセットとPascalVOCの単一クラスサブセットで、11のゼロショット解釈可能性メソッドを上回ります。
私たちの研究は、FluxのようなマルチモーダルなDiTモデルの表現が、セグメンテーションのようなビジョンタスクや、CLIPのようなマルチモーダルな基礎モデルよりも優れているという最初の証拠に貢献しています。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Masked Diffusion as Self-supervised Representation Learner [5.449210269462304]
Masked diffusion model (MDM) は意味的セグメンテーションのためのスケーラブルな自己教師型表現学習システムである。
本稿では,拡散モデルに固有の生成能力と表現学習能力の相互関係を分解する。
論文 参考訳(メタデータ) (2023-08-10T16:57:14Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。