論文の概要: Cross-Attention Head Position Patterns Can Align with Human Visual Concepts in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2412.02237v3
- Date: Mon, 24 Feb 2025 14:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:49:46.460603
- Title: Cross-Attention Head Position Patterns Can Align with Human Visual Concepts in Text-to-Image Generative Models
- Title(参考訳): テキスト・画像生成モデルにおける人間の視覚概念に相応しい位置位置パターン
- Authors: Jungwon Park, Jungmin Ko, Dongnam Byun, Jangwon Suh, Wonjong Rhee,
- Abstract要約: HRV(Head Relevance Vectors)の構築による拡散モデルに対する機械論的解釈可能性のアプローチを提案する。
所与の視覚概念に対するHRVは、所与の視覚概念に対する対応する頭部の重要性を表す各要素の総数に等しい長さを有する。
以上の結果から,HRVは画像生成における多文単語の誤解釈を減らし,画像編集における5つの難解な属性を修正し,多概念生成における破滅的無視を軽減できることが示唆された。
- 参考スコア(独自算出の注目度): 4.736059095502583
- License:
- Abstract: Recent text-to-image diffusion models leverage cross-attention layers, which have been effectively utilized to enhance a range of visual generative tasks. However, our understanding of cross-attention layers remains somewhat limited. In this study, we introduce a mechanistic interpretability approach for diffusion models by constructing Head Relevance Vectors (HRVs) that align with human-specified visual concepts. An HRV for a given visual concept has a length equal to the total number of cross-attention heads, with each element representing the importance of the corresponding head for the given visual concept. To validate HRVs as interpretable features, we develop an ordered weakening analysis that demonstrates their effectiveness. Furthermore, we propose concept strengthening and concept adjusting methods and apply them to enhance three visual generative tasks. Our results show that HRVs can reduce misinterpretations of polysemous words in image generation, successfully modify five challenging attributes in image editing, and mitigate catastrophic neglect in multi-concept generation. Overall, our work provides an advancement in understanding cross-attention layers and introduces new approaches for fine-controlling these layers at the head level.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ拡散モデルでは,視覚的生成タスクの広範化に有効に活用されているクロスアテンション・レイヤを活用している。
しかし、我々のクロスアテンション層に対する理解は、いまだに限られている。
本研究では,人間の視覚的概念に合わせて頭部関連ベクトル(HRV)を構築することで,拡散モデルに対する機械論的解釈可能性アプローチを提案する。
所与の視覚概念に対するHRVは、所与の視覚概念に対する対応する頭部の重要性を表す各要素の総数に等しい長さを有する。
本研究では,HRVを解釈可能な特徴として評価するために,その有効性を示す逐次弱化分析法を開発した。
さらに,概念強化と概念調整手法を提案し,これらを適用して3つの視覚的生成タスクを強化する。
以上の結果から,HRVは画像生成における多文単語の誤解釈を減らし,画像編集における5つの難解な属性を修正し,多概念生成における破滅的無視を軽減できることが示唆された。
全体として、我々の研究は、クロスアテンションレイヤの理解の進歩を提供し、これらのレイヤをヘッドレベルで微調整するための新しいアプローチを導入します。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - CoLa-DCE -- Concept-guided Latent Diffusion Counterfactual Explanations [2.3083192626377755]
概念誘導型遅延拡散対実例(CoLa-DCE)を紹介する。
CoLa-DCEは、概念選択と空間条件に関する高度な制御を持つ任意の分類器に対して、概念誘導対物を生成する。
我々は,複数の画像分類モデルとデータセットにまたがって,最小化と理解性のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2024-06-03T14:27:46Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - A-STAR: Test-time Attention Segregation and Retention for Text-to-image
Synthesis [24.159726798004748]
テキストから画像への生成モデルに対する2つのテストタイムアテンションに基づく損失関数を提案する。
まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の交差注意重なりを減少させる。
第2に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおいて、すべての概念に対する横断的な情報を保持するよう、明示的に強制する。
論文 参考訳(メタデータ) (2023-06-26T09:34:10Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。