論文の概要: Excite, Attend and Segment (EASe): Domain-Agnostic Fine-Grained Mask Discovery with Feature Calibration and Self-Supervised Upsampling
- arxiv url: http://arxiv.org/abs/2604.00276v1
- Date: Tue, 31 Mar 2026 22:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.743127
- Title: Excite, Attend and Segment (EASe): Domain-Agnostic Fine-Grained Mask Discovery with Feature Calibration and Self-Supervised Upsampling
- Title(参考訳): Excite, Attend and Segment (EASe):Domain-Agnostic Fine-Grained Mask Discovery with Feature Calibration and Self-Supervised Upsampling
- Authors: Deepank Singh, Anurag Nihal, Vedhus Hoskere,
- Abstract要約: Excite, Attend and Segment (EASe)は、教師なしドメインに依存しないセマンティックセグメンテーションフレームワークである。
本評価は,従来の最先端技術よりもEASeの優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised segmentation approaches have increasingly leveraged foundation models (FM) to improve salient object discovery. However, these methods often falter in scenes with complex, multi-component morphologies, where fine-grained structural detail is indispensable. Many state-of-the-art unsupervised segmentation pipelines rely on mask discovery approaches that utilize coarse, patch-level representations. These coarse representations inherently suppress the fine-grained detail required to resolve such complex morphologies. To overcome this limitation, we propose Excite, Attend and Segment (EASe), an unsupervised domain-agnostic semantic segmentation framework for easy fine-grained mask discovery across challenging real-world scenes. EASe utilizes novel Semantic-Aware Upsampling with Channel Excitation (SAUCE) to excite low-resolution FM feature channels for selective calibration and attends across spatially-encoded image and FM features to recover full-resolution semantic representations. Finally, EASe segments the aggregated features into multi-granularity masks using a novel training-free Cue-Attentive Feature Aggregator (CAFE) which leverages SAUCE attention scores as a semantic grouping signal. EASe, together with SAUCE and CAFE, operate directly at pixel-level feature representations to enable accurate fine-grained dense semantic mask discovery. Our evaluation demonstrates superior performance of EASe over previous state-of-the-arts (SOTAs) across major standard benchmarks and diverse datasets with complex morphologies. Code is available at https://ease-project.github.io
- Abstract(参考訳): 教師なしセグメンテーションアプローチは、健全なオブジェクト発見を改善するためにファンデーションモデル(FM)をますます活用している。
しかし、これらの手法は複雑な多成分形態を持つ場面でしばしば失敗し、きめ細かい構造的詳細は不可欠である。
多くの最先端の教師なしセグメンテーションパイプラインは、粗いパッチレベルの表現を利用するマスク発見アプローチに依存している。
これらの粗い表現は、そのような複雑な形態を解くのに必要な細かな詳細さを本質的に抑制する。
この制限を克服するために,現実のシーンを横断するきめ細かなマスク発見を容易にする,教師なしドメインに依存しないセマンティックセマンティックセマンティクスフレームワークであるExcite, Attend and Segment (EASe)を提案する。
EASeは、新しいSemantic-Aware Upsampling with Channel Excitation (SAUCE)を使用して、選択的キャリブレーションのための低解像度FM特徴チャネルをエキサイティングし、空間的に符号化された画像とFM特徴をまたいでフル解像度セマンティック表現を復元する。
最後に、EASeは、SAUCEの注意スコアをセマンティックグルーピング信号として活用する、新しいトレーニング不要なCue-Attentive Feature Aggregator (CAFE)を用いて、集約された特徴を多粒性マスクに分割する。
EASeとSAUCEとCAFEは、ピクセルレベルの特徴表現を直接操作して、きめ細かいセマンティックマスクの正確な発見を可能にする。
本評価は,従来の標準ベンチマークや複雑な形態を持つ多種多様なデータセットにおいて,従来の最先端技術(SOTA)よりもEASeの方が優れた性能を示す。
コードはhttps://ease-project.github.ioで公開されている。
関連論文リスト
- SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing [43.39478017496301]
Masked Autoencoder (MAE) ベースの事前訓練は、マスク付き画像領域を再構成することで、一般的な特徴表現を学習する強力な能力である。
多スペクトルリモートセンシング画像へのMAEの適用は、複雑な背景、不明瞭なターゲット、マスキング中の意味的ガイダンスの欠如など、依然として困難である。
SIGMAEは、ドメイン固有のスペクトル指標を事前知識として組み込んで、動的トークンマスキングを情報領域へ導く。
論文 参考訳(メタデータ) (2026-03-08T04:55:41Z) - AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models [21.682989096955467]
AG-VAS(Anchor-Guided Visual Anomaly)は、3つの学習可能なセマンティックアンカートークンでLMM語彙を拡張する新しいフレームワークである。
AG-VASはゼロショット設定で一貫した最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-01T22:25:23Z) - Segment and Matte Anything in a Unified Model [5.8874968768571625]
Segment Anything (SAM)は先日,ゼロショットの一般化とフレキシブルプロンプトを実証することによって,セグメンテーションの境界を推し進めた。
SAMの軽量拡張であるSegment And Matte Anything(SAMA)を紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:43:10Z) - Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。
このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。
さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-12T06:38:18Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。