論文の概要: Cross-Attention Head Position Patterns Can Align with Human Visual Concepts in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2412.02237v1
- Date: Tue, 03 Dec 2024 08:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:44.030793
- Title: Cross-Attention Head Position Patterns Can Align with Human Visual Concepts in Text-to-Image Generative Models
- Title(参考訳): テキスト・画像生成モデルにおける人間の視覚概念に相応しい位置位置パターン
- Authors: Jungwon Park, Jungmin Ko, Dongnam Byun, Jangwon Suh, Wonjong Rhee,
- Abstract要約: 本稿では,頭部関連ベクトル(HRV)を視覚的に有用な概念と整合させる手法を提案する。
与えられた視覚的概念に対するHRVは、各要素が与えられた視覚的概念に対する対応する頭部の重要性を表すクロスアテンションヘッドの総数に等しい長さのベクトルである。
画像生成における多文単語の誤解釈は,ほとんどの場合修正可能であり,画像編集における5つの困難な属性の修正が成功し,マルチコンセプト生成における無視が軽減できることを示す。
- 参考スコア(独自算出の注目度): 4.736059095502583
- License:
- Abstract: Recent text-to-image diffusion models leverage cross-attention layers, which have been effectively utilized to enhance a range of visual generative tasks. However, our understanding of cross-attention layers remains somewhat limited. In this study, we present a method for constructing Head Relevance Vectors (HRVs) that align with useful visual concepts. An HRV for a given visual concept is a vector with a length equal to the total number of cross-attention heads, where each element represents the importance of the corresponding head for the given visual concept. We develop and employ an ordered weakening analysis to demonstrate the effectiveness of HRVs as interpretable features. To demonstrate the utility of HRVs, we propose concept strengthening and concept adjusting methods and apply them to enhance three visual generative tasks. We show that misinterpretations of polysemous words in image generation can be corrected in most cases, five challenging attributes in image editing can be successfully modified, and catastrophic neglect in multi-concept generation can be mitigated. Overall, our work provides an advancement in understanding cross-attention layers and introduces new approaches for fine-controlling these layers at the head level.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ拡散モデルでは,視覚的生成タスクの広範化に有効に活用されているクロスアテンション・レイヤを活用している。
しかし、我々のクロスアテンション層に対する理解は、いまだに限られている。
本研究では,頭部関連ベクトル(HRV)を視覚的に有用な概念と整合させる手法を提案する。
与えられた視覚的概念に対するHRVは、各要素が与えられた視覚的概念に対する対応する頭部の重要性を表すクロスアテンションヘッドの総数に等しい長さのベクトルである。
我々は,解釈可能な特徴としてHRVの有効性を示すために,逐次弱化分析を開発し,活用する。
HRVの実用性を実証するために,概念強化と概念調整手法を提案し,これらを3つの視覚的生成タスクに応用する。
画像生成における多文単語の誤解釈は,ほとんどの場合修正可能であり,画像編集における5つの困難な属性の修正が成功し,多概念生成における破滅的な無視が軽減できることを示す。
全体として、我々の研究は、クロスアテンションレイヤの理解の進歩を提供し、これらのレイヤをヘッドレベルで微調整するための新しいアプローチを導入します。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - CoLa-DCE -- Concept-guided Latent Diffusion Counterfactual Explanations [2.3083192626377755]
概念誘導型遅延拡散対実例(CoLa-DCE)を紹介する。
CoLa-DCEは、概念選択と空間条件に関する高度な制御を持つ任意の分類器に対して、概念誘導対物を生成する。
我々は,複数の画像分類モデルとデータセットにまたがって,最小化と理解性のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2024-06-03T14:27:46Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - A-STAR: Test-time Attention Segregation and Retention for Text-to-image
Synthesis [24.159726798004748]
テキストから画像への生成モデルに対する2つのテストタイムアテンションに基づく損失関数を提案する。
まず、注意分離損失は、テキストプロンプト内の異なる概念の注意マップ間の交差注意重なりを減少させる。
第2に、注意保持損失は、テキストと画像の拡散モデルに対して、すべての認知時間ステップにおいて、すべての概念に対する横断的な情報を保持するよう、明示的に強制する。
論文 参考訳(メタデータ) (2023-06-26T09:34:10Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。