論文の概要: DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps
- arxiv url: http://arxiv.org/abs/2502.15885v1
- Date: Fri, 21 Feb 2025 19:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:29.769956
- Title: DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps
- Title(参考訳): DOEI:Attention-Enhanced Class Activation Mapsのための埋め込み情報の二重最適化
- Authors: Hongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao,
- Abstract要約: 弱教師付きセマンティックセグメンテーション(WSSS)は、典型的には限定的なセマンティックアノテーションを使用して、初期クラスアクティベーションマップ(CAM)を取得する。
クラスアクティベーション応答と高次元空間のセマンティック情報との結合が不十分なため、CAMはオブジェクト共起や不活性化の傾向にある。
本稿では,意味認識重み行列を用いて埋め込み表現を再構成する新しい手法である,埋め込み情報のデュアル最適化であるDOEIを提案する。
- 参考スコア(独自算出の注目度): 30.53564087005569
- License:
- Abstract: Weakly supervised semantic segmentation (WSSS) typically utilizes limited semantic annotations to obtain initial Class Activation Maps (CAMs). However, due to the inadequate coupling between class activation responses and semantic information in high-dimensional space, the CAM is prone to object co-occurrence or under-activation, resulting in inferior recognition accuracy. To tackle this issue, we propose DOEI, Dual Optimization of Embedding Information, a novel approach that reconstructs embedding representations through semantic-aware attention weight matrices to optimize the expression capability of embedding information. Specifically, DOEI amplifies tokens with high confidence and suppresses those with low confidence during the class-to-patch interaction. This alignment of activation responses with semantic information strengthens the propagation and decoupling of target features, enabling the generated embeddings to more accurately represent target features in high-level semantic space. In addition, we propose a hybrid-feature alignment module in DOEI that combines RGB values, embedding-guided features, and self-attention weights to increase the reliability of candidate tokens. Comprehensive experiments show that DOEI is an effective plug-and-play module that empowers state-of-the-art visual transformer-based WSSS models to significantly improve the quality of CAMs and segmentation performance on popular benchmarks, including PASCAL VOC (+3.6%, +1.5%, +1.2% mIoU) and MS COCO (+1.2%, +1.6% mIoU). Code will be available at https://github.com/AIGeeksGroup/DOEI.
- Abstract(参考訳): 弱教師付きセマンティックセグメンテーション(WSSS)は通常、限定的なセマンティックアノテーションを使用して、初期クラスアクティベーションマップ(CAM)を取得する。
しかし、クラスアクティベーション応答と高次元空間のセマンティック情報との結合が不十分なため、CAMはオブジェクトの共起や不活性化が難しくなり、認識精度が低下する。
そこで本研究では,埋め込み情報の表現能力を最適化するために,セマンティック・アウェア・アウェアメント・ウェイト行列を用いて埋め込み表現を再構築する新しいアプローチである,埋め込み情報のデュアル最適化であるDOEIを提案する。
具体的には、DOEIはトークンを高い信頼性で増幅し、クラス・ツー・パッチの相互作用において信頼性の低いトークンを抑圧する。
このアクティベーション応答とセマンティック情報とのアライメントにより、ターゲット特徴の伝播と分離が強化され、生成した埋め込みが高レベルのセマンティック空間におけるターゲット特徴をより正確に表現できるようになる。
さらに,RGB値,埋め込み型特徴量,自己注意重みを組み合わせ,候補トークンの信頼性を高めるハイブリッド機能アライメントモジュールをDOEIで提案する。
総合的な実験によると、DOEIは、PASCAL VOC(+3.6%、+1.5%、+1.2% mIoU)やMS COCO(+1.2%、+1.6% mIoU)など、一般的なベンチマークにおけるCAMの品質とセグメンテーション性能を大幅に向上させる、最先端のビジュアルトランスフォーマーベースのWSSSモデルに有効なプラグアンドプレイモジュールである。
コードはhttps://github.com/AIGeeksGroup/DOEIで入手できる。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Learning to Learn Better for Video Object Segmentation [94.5753973590207]
本稿では,SVOS の学習目標機能 (LLB) を強調する新しいフレームワークを提案する。
識別ラベル生成モジュール(DLGM)と適応融合モジュールを設計し,これらの課題に対処する。
提案手法は最先端性能を実現する。
論文 参考訳(メタデータ) (2022-12-05T09:10:34Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。