論文の概要: ARM: A Learnable, Plug-and-Play Module for CLIP-based Open-vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2512.24224v1
- Date: Tue, 30 Dec 2025 13:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.387468
- Title: ARM: A Learnable, Plug-and-Play Module for CLIP-based Open-vocabulary Semantic Segmentation
- Title(参考訳): ARM: CLIPベースのオープン語彙セマンティックセマンティックセマンティックセグメンテーションのための学習可能なプラグイン・アンド・プレイモジュール
- Authors: Ziquan Liu, Zhewei Zhu, Xuyang Shi,
- Abstract要約: オープン語彙セマンティックセグメンテーション(OVSS)は、CLIPの粗い画像レベルの表現によって根本的に妨げられている。
本稿では,CLIPの内部ポテンシャルを効果的に解放する軽量で学習可能なモジュールであるAttention Refinement Module (ARM)を提案する。
ARMは、無視可能な推論オーバーヘッドを持つ複数のベンチマークのベースラインパフォーマンスを一貫して向上させる。
- 参考スコア(独自算出の注目度): 11.04143971119602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) is fundamentally hampered by the coarse, image-level representations of CLIP, which lack precise pixel-level details. Existing training-free methods attempt to resolve this by either importing priors from costly external foundation models (e.g., SAM, DINO) or by applying static, hand-crafted heuristics to CLIP's internal features. These approaches are either computationally expensive or sub-optimal. We propose the Attention Refinement Module (ARM), a lightweight, learnable module that effectively unlocks and refines CLIP's internal potential. Unlike static-fusion methods, ARM learns to adaptively fuse hierarchical features. It employs a semantically-guided cross-attention block, using robust deep features (K, V) to select and refine detail-rich shallow features (Q), followed by a self-attention block. The key innovation lies in a ``train once, use anywhere" paradigm. Trained once on a general-purpose dataset (e.g., COCO-Stuff), ARM acts as a universal plug-and-play post-processor for diverse training-free frameworks. Extensive experiments show that ARM consistently boosts baseline performance on multiple benchmarks with negligible inference overhead, establishing an efficient and effective paradigm for training-free OVSS.
- Abstract(参考訳): OVSS(Open-vocabulary semantic segmentation)は、CLIPの粗い画像レベルの表現によって根本的に阻害される。
既存のトレーニングフリーメソッドは、コストのかかる外部基盤モデル(SAM、DINOなど)から事前をインポートするか、CLIPの内部機能に静的手作りのヒューリスティックを適用して解決しようとする。
これらの手法は計算コストが高いか準最適である。
我々は,CLIPの内部ポテンシャルを効果的に解き放つ軽量で学習可能なモジュールであるAttention Refinement Module (ARM)を提案する。
静的フュージョンメソッドとは異なり、ARMは階層的機能を適応的にフューズすることを学ぶ。
意味的に誘導されたクロスアテンションブロックを使用し、堅牢な深い特徴(K, V)を使用して、詳細に富んだ浅い特徴(Q)を選択し、洗練し、自己アテンションブロックが続く。
重要なイノベーションは、‘たった一度のトレーニング、どこでも使える’パラダイムにあります。
汎用データセット(例えばCOCO-Stuff)で一度トレーニングされたARMは、さまざまなトレーニングフリーフレームワークのための汎用的なプラグアンドプレイポストプロセッサとして機能する。
大規模な実験により、ARMは無視可能な推論オーバーヘッドを持つ複数のベンチマークのベースラインパフォーマンスを継続的に向上し、トレーニング不要なOVSSの効率的かつ効果的なパラダイムを確立している。
関連論文リスト
- Modular Embedding Recomposition for Incremental Learning [23.789486655098585]
視覚言語モデル(VLM)のゼロショット能力の強化に保存を変換する手法を提案する。
私たちのアプローチはMoDular Embedding Recomposition (MoDER)と呼ばれ、複数のテキスト専門家を訓練するモジュラーフレームワークを導入しています。
推論時に、各未確認クラスに対してハブを問合せし、抽出した専門家を構成して、分類を改善するための洗練されたプロトタイプを合成する。
論文 参考訳(メタデータ) (2025-08-22T15:25:40Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。