論文の概要: Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.03112v2
- Date: Thu, 29 May 2025 12:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.213842
- Title: Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーション用変圧器における非分別過スムージングの校正
- Authors: Lechao Cheng, Zerun Liu, Jingxuan He, Chaowei Fang, Dingwen Zhang, Meng Wang,
- Abstract要約: 弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
- 参考スコア(独自算出の注目度): 51.14107156747967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised semantic segmentation (WSSS) has recently attracted considerable attention because it requires fewer annotations than fully supervised approaches, making it especially promising for large-scale image segmentation tasks. Although many vision transformer-based methods leverage self-attention affinity matrices to refine Class Activation Maps (CAMs), they often treat each layer's affinity equally and thus introduce considerable background noise at deeper layers, where attention tends to converge excessively on certain tokens (i.e., over-smoothing). We observe that this deep-level attention naturally converges on a subset of tokens, yet unregulated query-key affinity can generate unpredictable activation patterns (undisciplined over-smoothing), adversely affecting CAM accuracy. To address these limitations, we propose an Adaptive Re-Activation Mechanism (AReAM), which exploits shallow-level affinity to guide deeper-layer convergence in an entropy-aware manner, thereby suppressing background noise and re-activating crucial semantic regions in the CAMs. Experiments on two commonly used datasets demonstrate that AReAM substantially improves segmentation performance compared with existing WSSS methods, reducing noise while sharpening focus on relevant semantic regions. Overall, this work underscores the importance of controlling deep-level attention to mitigate undisciplined over-smoothing, introduces an entropy-aware mechanism that harmonizes shallow and deep-level affinities, and provides a refined approach to enhance transformer-based WSSS accuracy by re-activating CAMs.
- Abstract(参考訳): 弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全に教師付きアプローチよりもアノテーションが少ないため、特に大規模な画像セマンティクスタスクにおいて有望であるため、近年注目されている。
多くの視覚トランスフォーマーベースの手法は、自己アテンション親和性行列を利用してクラス活性化マップ(CAM)を洗練させるが、各層の親和性は等しく扱い、より深い層にかなりのバックグラウンドノイズを生じさせ、注意が特定のトークン(すなわち過度な平滑化)に過度に収束する傾向がある。
この深い注意はトークンのサブセットに自然に収束するが、制御されていないクエリキー親和性は予測不能なアクティベーションパターン(過度なスムージング)を生成し、CAMの精度に悪影響を及ぼす。
これらの制約に対処するために,浅層アフィニティを利用した適応的再活性化機構(AReAM)を提案し,深層収束をエントロピーに意識して誘導し,背景雑音を抑制し,CAMにおいて重要な意味領域を再活性化する。
2つの一般的なデータセットの実験により、AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞った。
本研究は, 過平滑化を緩和する深層注意制御の重要性を強調し, 浅層および深層親和性を調和させるエントロピー認識機構を導入し, CAMの再活性化による変圧器ベースWSSS精度向上のための改良されたアプローチを提供する。
関連論文リスト
- Hallucination Detection in LLMs via Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Sub-Adjacent Transformer: Improving Time Series Anomaly Detection with Reconstruction Error from Sub-Adjacent Neighborhoods [22.49176231245093]
教師なし時系列異常検出のための新しいアテンション機構を備えたサブアジャセント変換器を提案する。
サブアジャセント領域に注意を集中させることで、異常の再構築をより困難にしている。
Sub-Adjacent Transformerは、6つの実世界の異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-27T08:08:17Z) - Tackling Ambiguity from Perspective of Uncertainty Inference and Affinity Diversification for Weakly Supervised Semantic Segmentation [12.308473939796945]
画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、退屈なアノテーションを使わずに高密度なタスクを実現することを目的としている。
WSSSの性能、特にクラス活性化マップ(CAM)の生成と擬似マスクの精製の段階では、あいまいさに悩まされている。
統一された単一ステージWSSSフレームワークであるUniAを提案し、不確実性推論と親和性多様化の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-04-12T01:54:59Z) - Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization [50.43319961935526]
SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。
SSATは破滅的なオーバーフィッティング(CO)に苦しむが、これは非常に歪んだ分類器に繋がる現象である。
本研究では,SSAT学習ネットワーク上で発生するいくつかの逆の例が異常な振る舞いを示すことを観察する。
論文 参考訳(メタデータ) (2024-04-11T22:43:44Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Counterfactual Co-occurring Learning for Bias Mitigation in
Weakly-supervised Object Localization [37.307498788813035]
我々は、偏りのあるアクティベーションの起源を調べるために、徹底的な因果解析を行う。
我々はCCL(Counterfactual Co-occurring Learning)と呼ばれる先駆的パラダイムを導入する。
本稿では,Counterfactual-CAMと呼ばれる革新的なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:07:30Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。