論文の概要: Global-Local Feature Decoding with Adapter-Guided SAMv2 for Salient Object Detection
- arxiv url: http://arxiv.org/abs/2605.02616v1
- Date: Mon, 04 May 2026 14:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.321223
- Title: Global-Local Feature Decoding with Adapter-Guided SAMv2 for Salient Object Detection
- Title(参考訳): Adapter-Guided SAMv2による高次物体検出のためのグローバルローカル特徴復号
- Authors: Morteza Moradi, Mohammad Moradi, Simone Palazzo, Ali Borji, Concetto Spampinato,
- Abstract要約: GLASSNetは、SAMv2をフリーズエンコーダとして使用し、軽量で空間的に認識された畳み込みアダプタによる学習可能なエンコーダパラメータを97%以上削減するグローバルローカ機能デコーダフレームワークである。
1つのデコーダは、拡張された受容領域でグローバルで長距離なセマンティクスをキャプチャし、もう1つはエッジやテクスチャのような細かな局所的な詳細をキャプチャする。
- 参考スコア(独自算出の注目度): 24.900668326740497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient Object Detection (SOD) remains an essential yet underexplored task in the era of large-scale vision models. Although foundation models like SAM exhibit strong generalization, their potential for SOD is not fully realized, and training or fully fine-tuning them is computationally expensive and prone to overfitting under limited data. To overcome these challenges, we introduce GLASSNet, a Global-Local feature decoding framework that uses SAMv2 as a frozen encoder paired with a lightweight, spatially aware convolutional adapter-reducing learnable encoder parameters by over 97%. To enhance saliency quality, GLASSNet employs a dual-decoder architecture: one decoder captures global, long-range semantics with an expanded receptive field, while the other captures fine local details such as edges and textures. Fusing these complementary cues yields saliency maps that combine global coherence with local precision, producing accurate final masks. Extensive experiments on standard SOD and camouflaged object detection benchmarks show that GLASSNet surpasses state-of-the-art methods, demonstrating the power of frozen foundation models combined with targeted adaptation and global-local decoding.
- Abstract(参考訳): サリアント物体検出(SOD)は、大規模な視覚モデルの時代において必要不可欠だが未発見の課題である。
SAMのような基礎モデルは強力な一般化を示すが、SODのポテンシャルは十分には実現されておらず、訓練や完全な微調整は計算コストが高く、限られたデータの下で過度に適合する傾向がある。
GLASSNetは、SAMv2をフリーズエンコーダとして使用し、軽量で空間的に認識された畳み込みアダプタによる学習可能なエンコーダパラメータを97%以上削減する。
1つのデコーダは、拡張された受容領域でグローバルで長距離なセマンティクスをキャプチャし、もう1つはエッジやテクスチャのような細かな局所的な詳細をキャプチャする。
これらの補完的な手がかりを融合させることで、グローバルなコヒーレンスと局所的な精度を組み合わせ、正確な最終マスクを生成するサリエンシマップが得られる。
標準SODおよびcamouflaged object detectionベンチマークの広範囲な実験により、GLASSNetは最先端の手法を超越し、ターゲット適応とグローバルローカルデコーディングを組み合わせた凍結基盤モデルのパワーを実証した。
関連論文リスト
- G2HFNet: GeoGran-Aware Hierarchical Feature Fusion Network for Salient Object Detection in Optical Remote Sensing Images [76.1829298714382]
既存の手法では、一様注意機構を用いて複数の特徴を単一スケールで抽出するのが一般的である。
光リモートセンシング画像における幾何的および粒度をフル活用するGeoGran-Aware grained Feature Fusion Network (G2HFNet)を提案する。
論文 参考訳(メタデータ) (2026-03-13T05:52:00Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - GAPNet: A Lightweight Framework for Image and Video Salient Object Detection via Granularity-Aware Paradigm [19.018378225862474]
GAPNetは、画像とビデオの両方のオブジェクト検出のための粒度認識パラダイムに基づいて構築された軽量ネットワークである。
我々のデコーダは、低粒度の高レベル特徴と高粒度の低レベル特徴を融合した粒度対応接続で構築されている。
エンコーダ上には,グローバル情報学習のための自己認識モジュールが構築されており,計算コストを無視できる精度の高いオブジェクトローカライゼーションを実現している。
論文 参考訳(メタデータ) (2025-08-11T03:30:59Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Attention guided global enhancement and local refinement network for
semantic segmentation [5.881350024099048]
エンコーダ・デコーダアーキテクチャを用いて,軽量なセマンティックセマンティックセマンティクスネットワークを開発した。
高レベル特徴マップからグローバル情報を集約するグローバルエンハンスメント手法を提案する。
ローカルリファインメントモジュールは、デコーダ機能をセマンティックガイダンスとして利用することによって開発される。
この2つの手法はContext Fusion Blockに統合され、それに基づいてAttention Guided Global enhancement and Local refinement Network (AGLN) が精巧に設計されている。
論文 参考訳(メタデータ) (2022-04-09T02:32:24Z) - Saliency Detection via Global Context Enhanced Feature Fusion and Edge
Weighted Loss [6.112591965159383]
本研究では,コンテキスト融合デコーダネットワーク(CFDN)と近縁重み付き損失(NEWLoss)関数を提案する。
CFDNは、グローバルコンテキスト情報を統合し、不要な空間情報の影響を抑えることにより、正確な唾液マップを作成する。
NewLossは、オブジェクト境界上の重み写像を生成することによって、追加モジュールなしで曖昧な境界の学習を加速する。
論文 参考訳(メタデータ) (2021-10-13T08:04:55Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Context-aware Cross-level Fusion Network for Camouflaged Object
Detection [23.109969322128958]
本稿では,C2F-Net(Context-aware Cross-level Fusion Network)を提案する。
我々のC2F-Netは有効なCODモデルであり、最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-26T14:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。