論文の概要: Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.03112v2
- Date: Thu, 29 May 2025 12:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.213842
- Title: Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーション用変圧器における非分別過スムージングの校正
- Authors: Lechao Cheng, Zerun Liu, Jingxuan He, Chaowei Fang, Dingwen Zhang, Meng Wang,
- Abstract要約: 弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
- 参考スコア(独自算出の注目度): 51.14107156747967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised semantic segmentation (WSSS) has recently attracted considerable attention because it requires fewer annotations than fully supervised approaches, making it especially promising for large-scale image segmentation tasks. Although many vision transformer-based methods leverage self-attention affinity matrices to refine Class Activation Maps (CAMs), they often treat each layer's affinity equally and thus introduce considerable background noise at deeper layers, where attention tends to converge excessively on certain tokens (i.e., over-smoothing). We observe that this deep-level attention naturally converges on a subset of tokens, yet unregulated query-key affinity can generate unpredictable activation patterns (undisciplined over-smoothing), adversely affecting CAM accuracy. To address these limitations, we propose an Adaptive Re-Activation Mechanism (AReAM), which exploits shallow-level affinity to guide deeper-layer convergence in an entropy-aware manner, thereby suppressing background noise and re-activating crucial semantic regions in the CAMs. Experiments on two commonly used datasets demonstrate that AReAM substantially improves segmentation performance compared with existing WSSS methods, reducing noise while sharpening focus on relevant semantic regions. Overall, this work underscores the importance of controlling deep-level attention to mitigate undisciplined over-smoothing, introduces an entropy-aware mechanism that harmonizes shallow and deep-level affinities, and provides a refined approach to enhance transformer-based WSSS accuracy by re-activating CAMs.
- Abstract(参考訳): 弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全に教師付きアプローチよりもアノテーションが少ないため、特に大規模な画像セマンティクスタスクにおいて有望であるため、近年注目されている。
多くの視覚トランスフォーマーベースの手法は、自己アテンション親和性行列を利用してクラス活性化マップ(CAM)を洗練させるが、各層の親和性は等しく扱い、より深い層にかなりのバックグラウンドノイズを生じさせ、注意が特定のトークン(すなわち過度な平滑化)に過度に収束する傾向がある。
この深い注意はトークンのサブセットに自然に収束するが、制御されていないクエリキー親和性は予測不能なアクティベーションパターン(過度なスムージング)を生成し、CAMの精度に悪影響を及ぼす。
これらの制約に対処するために,浅層アフィニティを利用した適応的再活性化機構(AReAM)を提案し,深層収束をエントロピーに意識して誘導し,背景雑音を抑制し,CAMにおいて重要な意味領域を再活性化する。
2つの一般的なデータセットの実験により、AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞った。
本研究は, 過平滑化を緩和する深層注意制御の重要性を強調し, 浅層および深層親和性を調和させるエントロピー認識機構を導入し, CAMの再活性化による変圧器ベースWSSS精度向上のための改良されたアプローチを提供する。
関連論文リスト
- ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [3.7365850182404845]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - A TRPCA-Inspired Deep Unfolding Network for Hyperspectral Image Denoising via Thresholded t-SVD and Top-K Sparse Transformer [20.17660504535571]
本稿では,低ランクとスパースという2つの密に統合されたモジュール間のステージワイドな交互化を実現する新しいディープ展開ネットワーク(DU-TRPCA)を提案する。
合成および実世界のHSIの実験により、DU-TRPCAは高密度混合雑音下で最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-06-03T02:01:39Z) - Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.645152962504056]
半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。
空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。
本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文 参考訳(メタデータ) (2025-05-29T13:35:48Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Hallucination Detection in LLMs via Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Sub-Adjacent Transformer: Improving Time Series Anomaly Detection with Reconstruction Error from Sub-Adjacent Neighborhoods [22.49176231245093]
教師なし時系列異常検出のための新しいアテンション機構を備えたサブアジャセント変換器を提案する。
サブアジャセント領域に注意を集中させることで、異常の再構築をより困難にしている。
Sub-Adjacent Transformerは、6つの実世界の異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-27T08:08:17Z) - Tackling Ambiguity from Perspective of Uncertainty Inference and Affinity Diversification for Weakly Supervised Semantic Segmentation [12.308473939796945]
画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、退屈なアノテーションを使わずに高密度なタスクを実現することを目的としている。
WSSSの性能、特にクラス活性化マップ(CAM)の生成と擬似マスクの精製の段階では、あいまいさに悩まされている。
統一された単一ステージWSSSフレームワークであるUniAを提案し、不確実性推論と親和性多様化の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-04-12T01:54:59Z) - Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization [50.43319961935526]
SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。
SSATは破滅的なオーバーフィッティング(CO)に苦しむが、これは非常に歪んだ分類器に繋がる現象である。
本研究では,SSAT学習ネットワーク上で発生するいくつかの逆の例が異常な振る舞いを示すことを観察する。
論文 参考訳(メタデータ) (2024-04-11T22:43:44Z) - Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained
Skeleton-Based Action Recognition [8.743480762121937]
本稿ではウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。
また,コントラスト学習によるトラジェクティブ特徴に対する注意を高めるために,FCEモジュールを提案する。
提案手法は最先端の手法と競合して動作し,微粒な動作を適切に識別することができる。
論文 参考訳(メタデータ) (2024-02-03T16:51:04Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - All-pairs Consistency Learning for Weakly Supervised Semantic
Segmentation [42.66269050864235]
Weakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズに適したトランスフォーマーベース正規化を提案する。
我々は、ペアワイズ親和性を自然に埋め込む自己注意機構として、視覚変換器を採用する。
本手法は, PASCAL VOC列車のクラスローカライゼーションマップ(67.3% mIoU)を顕著に向上させる。
論文 参考訳(メタデータ) (2023-08-08T15:14:23Z) - Counterfactual Co-occurring Learning for Bias Mitigation in
Weakly-supervised Object Localization [37.307498788813035]
我々は、偏りのあるアクティベーションの起源を調べるために、徹底的な因果解析を行う。
我々はCCL(Counterfactual Co-occurring Learning)と呼ばれる先駆的パラダイムを導入する。
本稿では,Counterfactual-CAMと呼ばれる革新的なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:07:30Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Activation Modulation and Recalibration Scheme for Weakly Supervised
Semantic Segmentation [24.08326440298189]
弱教師付きセマンティックセグメンテーションのための新しいアクティベーション変調と再校正手法を提案する。
PASCAL VOC 2012データセット上で,AMRが新たな最先端パフォーマンスを確立することを示す。
また,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能向上を図ることが可能であることを実験により明らかにした。
論文 参考訳(メタデータ) (2021-12-16T16:26:14Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。