Fugu-MT 論文翻訳(概要): Selective Aggregation of Attention Maps Improves Diffusion-Based Visual Interpretation

論文の概要: Selective Aggregation of Attention Maps Improves Diffusion-Based Visual Interpretation

arxiv url: http://arxiv.org/abs/2604.05906v1
Date: Tue, 07 Apr 2026 14:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-08 17:42:09.871989
Title: Selective Aggregation of Attention Maps Improves Diffusion-Based Visual Interpretation
Title（参考訳）: 注意マップの選択的集約は拡散に基づく視覚解釈を改善する
Authors: Jungwon Park, Jungmin Ko, Dongnam Byun, Wonjong Rhee,
Abstract要約: 対象概念に最も関係のある頭部からの横断的地図を選択的に集約することで、視覚的解釈性が向上することを示す。また、最も関連性の高い頭部は、最も関連性の高い頭部よりも、概念固有の特徴を正確に捉え、選択的な凝集は、迅速な誤解釈の診断に役立ちます。
参考スコア（独自算出の注目度）: 12.969353054636272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Numerous studies on text-to-image (T2I) generative models have utilized cross-attention maps to boost application performance and interpret model behavior. However, the distinct characteristics of attention maps from different attention heads remain relatively underexplored. In this study, we show that selectively aggregating cross-attention maps from heads most relevant to a target concept can improve visual interpretability. Compared to the diffusion-based segmentation method DAAM, our approach achieves higher mean IoU scores. We also find that the most relevant heads capture concept-specific features more accurately than the least relevant ones, and that selective aggregation helps diagnose prompt misinterpretations. These findings suggest that attention head selection offers a promising direction for improving the interpretability and controllability of T2I generation.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成モデルに関する多くの研究は、アプリケーションの性能向上とモデル動作の解釈のために、横断アテンションマップを利用している。しかし、異なる注目ヘッドからの注目マップの異なる特徴は、いまだ相対的に過小評価されている。本研究では,対象概念に最も関連性の高い頭部からの横断的地図を選択的に集約することで,視覚的解釈性が向上することを示す。拡散法による分割法DAAMと比較すると,IoUスコアは平均値よりも高い値が得られる。また、最も関連性の高い頭部は、最も関連性の高い頭部よりも、概念固有の特徴を正確に捉え、選択的な凝集は、迅速な誤解釈の診断に役立ちます。これらの結果から,注目頭部選択はT2I生成の解釈性や制御性を向上させる上で有望な方向を示すことが示唆された。

関連論文リスト

iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文参考訳（メタデータ） (2024-09-05T03:07:26Z)
Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文参考訳（メタデータ） (2024-02-15T05:07:54Z)
DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文参考訳（メタデータ） (2024-01-01T21:20:43Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文参考訳（メタデータ） (2023-11-11T12:01:18Z)
Your "Attention" Deserves Attention: A Self-Diversified Multi-Channel Attention for Facial Action Analysis [12.544285462327839]
本稿では,ニューラルアテンションマップの表現力と集中力を高めるためのコンパクトモデルを提案する。提案手法は,AU検出のための2つのベンチマークデータベース (BP4D, DISFA) と顔認識のための4つのデータベース (CK+, MMI, BU-3DFE, BP4D+) で評価した。最先端の手法に比べて優れた性能を発揮する。
論文参考訳（メタデータ） (2022-03-23T17:29:51Z)
Improve the Interpretability of Attention: A Fast, Accurate, and Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文参考訳（メタデータ） (2021-06-04T15:57:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。