論文の概要: RefAM: Attention Magnets for Zero-Shot Referral Segmentation
- arxiv url: http://arxiv.org/abs/2509.22650v1
- Date: Fri, 26 Sep 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.645122
- Title: RefAM: Attention Magnets for Zero-Shot Referral Segmentation
- Title(参考訳): RefAM:ゼロショットリファラルセグメンテーション用アテンション磁石
- Authors: Anna Kukleva, Enis Simsar, Alessio Tonioni, Muhammad Ferjad Naeem, Federico Tombari, Jan Eric Lenssen, Bernt Schiele,
- Abstract要約: 本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。
重要な洞察は、停止語は注意磁石として機能するということだ。
停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
- 参考スコア(独自算出の注目度): 103.98022860792504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing approaches to referring segmentation achieve strong performance only through fine-tuning or by composing multiple pre-trained models, often at the cost of additional training and architectural modifications. Meanwhile, large-scale generative diffusion models encode rich semantic information, making them attractive as general-purpose feature extractors. In this work, we introduce a new method that directly exploits features, attention scores, from diffusion transformers for downstream tasks, requiring neither architectural modifications nor additional training. To systematically evaluate these features, we extend benchmarks with vision-language grounding tasks spanning both images and videos. Our key insight is that stop words act as attention magnets: they accumulate surplus attention and can be filtered to reduce noise. Moreover, we identify global attention sinks (GAS) emerging in deeper layers and show that they can be safely suppressed or redirected onto auxiliary tokens, leading to sharper and more accurate grounding maps. We further propose an attention redistribution strategy, where appended stop words partition background activations into smaller clusters, yielding sharper and more localized heatmaps. Building on these findings, we develop RefAM, a simple training-free grounding framework that combines cross-attention maps, GAS handling, and redistribution. Across zero-shot referring image and video segmentation benchmarks, our approach consistently outperforms prior methods, establishing a new state of the art without fine-tuning or additional components.
- Abstract(参考訳): セグメンテーションを引用する既存のアプローチは、微調整や複数の事前訓練されたモデルの作成によってのみ強力なパフォーマンスを達成しており、しばしば追加のトレーニングやアーキテクチャ修正のコストがかかる。
一方、大規模生成拡散モデルでは、リッチな意味情報をエンコードし、汎用的特徴抽出器として魅力的である。
本研究では,下流タスクの拡散変換器から特徴,注意点を直接活用する新しい手法を提案する。
これらの特徴を体系的に評価するために、画像とビデオの両方にまたがる視覚言語接地タスクによるベンチマークを拡張した。
私たちの重要な洞察は、停止語は注意磁石として機能し、余剰な注意を蓄積し、ノイズを減らすためにフィルタリングできるということです。
さらに、より深い層に現れるグローバルアテンションシンク(GAS)を特定し、補助トークンに安全に抑制またはリダイレクトできることを示し、よりシャープでより正確な接地マップを作成する。
さらに注意再分配戦略を提案し、追加の停止単語の背景アクティベーションを小さなクラスタに分割し、よりシャープでより局所的なヒートマップを生成する。
これらの知見に基づいて,クロスアテンションマップ,GASハンドリング,再配布を組み合わせた簡易なトレーニングフリーグラウンドディングフレームワークRefAMを開発した。
ゼロショット参照画像とビデオセグメンテーションのベンチマーク全体において、我々のアプローチは従来手法より一貫して優れており、微調整や追加の部品を使わずに新しい最先端技術を確立している。
関連論文リスト
- Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文 参考訳(メタデータ) (2025-07-21T19:29:03Z) - Integrated Image Reconstruction and Target Recognition based on Deep Learning Technique [3.3410072288157155]
Att-ClassiGAN は,従来の CMI アプローチと比較して,再建時間を大幅に短縮する。
改良された正規化平均二乗誤差(NMSE)、より高い構造類似度指数(SSIM)、再建対象に対するより良い分類結果を提供する。
論文 参考訳(メタデータ) (2025-05-07T22:34:32Z) - Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
テキスト・画像拡散モデルにおける「右端」(BE)異常は、トレーニング画像の記憶に起因する。
本稿では,BEを既存のフレームワークに統合する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T02:16:01Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Fine-Grained Attention for Weakly Supervised Object Localization [1.490944787606832]
物体の活性領域の少ない領域を自律的に励起する新しい残留微粒注意(RFGA)モジュールを提案する。
我々は,三視点注意表現,注意拡大,特徴校正の一連のメカニズムを考案する。
提案するRFGAモジュールの優位性を,3つのデータセットに対する最近の文献的手法との比較により検証した。
論文 参考訳(メタデータ) (2021-04-11T08:14:05Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。