論文の概要: Generalization Boosted Adapter for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2409.08468v1
- Date: Fri, 13 Sep 2024 01:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:07:55.073867
- Title: Generalization Boosted Adapter for Open-Vocabulary Segmentation
- Title(参考訳): 開語彙セグメンテーションのための一般化促進型アダプタ
- Authors: Wenhao Xu, Changwei Wang, Xuxiang Feng, Rongtao Xu, Longzhao Huang, Zherui Zhang, Li Guo, Shibiao Xu,
- Abstract要約: Generalization Boosted Adapter (GBA) は、視覚言語モデルの一般化と堅牢性を高める新しいアダプタ戦略である。
シンプルで効率的でプラグアンドプレイなコンポーネントとして、GAAは様々なCLIPベースのメソッドに柔軟に統合できる。
- 参考スコア(独自算出の注目度): 15.91026999425076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated remarkable open-vocabulary object recognition capabilities, motivating their adaptation for dense prediction tasks like segmentation. However, directly applying VLMs to such tasks remains challenging due to their lack of pixel-level granularity and the limited data available for fine-tuning, leading to overfitting and poor generalization. To address these limitations, we propose Generalization Boosted Adapter (GBA), a novel adapter strategy that enhances the generalization and robustness of VLMs for open-vocabulary segmentation. GBA comprises two core components: (1) a Style Diversification Adapter (SDA) that decouples features into amplitude and phase components, operating solely on the amplitude to enrich the feature space representation while preserving semantic consistency; and (2) a Correlation Constraint Adapter (CCA) that employs cross-attention to establish tighter semantic associations between text categories and target regions, suppressing irrelevant low-frequency ``noise'' information and avoiding erroneous associations. Through the synergistic effect of the shallow SDA and the deep CCA, GBA effectively alleviates overfitting issues and enhances the semantic relevance of feature representations. As a simple, efficient, and plug-and-play component, GBA can be flexibly integrated into various CLIP-based methods, demonstrating broad applicability and achieving state-of-the-art performance on multiple open-vocabulary segmentation benchmarks.
- Abstract(参考訳): 視覚言語モデル(VLM)は、セグメンテーションのような密集した予測タスクへの適応を動機づけ、顕著なオープン語彙オブジェクト認識能力を示している。
しかし、画素レベルの粒度の不足や微調整に使える限られたデータが不足しているため、こうしたタスクにVLMを直接適用することは依然として困難であり、過度に適合し、一般化が不十分である。
これらの制約に対処するために,オープン語彙セグメンテーションのためのVLMの一般化とロバスト性を高める新しいアダプタ戦略であるGeneralization Boosted Adapter (GBA)を提案する。
GBAは,(1)特徴を振幅と位相成分に分離し,意味的整合性を維持しつつ特徴空間表現を充実させるための振幅のみを演算するスタイル多様化適応器(SDA)と,(2)テキストカテゴリと対象領域間のより密接な意味的関連を確立するために相互アテンションを利用する相関制約適応器(CCA)と,無関係な低周波の「ノイズ」情報を抑圧し,誤関連を避けるための2つのコアコンポーネントから構成される。
浅部SDAと深部CAAの相乗効果により,GAAは過剰適合問題を効果的に軽減し,特徴表現の意味的関連性を高める。
シンプルで効率的でプラグアンドプレイなコンポーネントとして、GBAは様々なCLIPベースのメソッドに柔軟に統合することができ、幅広い適用性を示し、複数のオープン語彙セグメンテーションベンチマークで最先端のパフォーマンスを達成することができる。
関連論文リスト
- OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation [54.98688607911399]
オープン語彙セグメンテーションのための新しいタスクドメイン適応を導入する。
本稿では,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。
この結果は,オープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [79.66299178949257]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。
視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。
H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T07:41:34Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
本研究では、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのための強力なベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - Active Domain Adaptation with Multi-level Contrastive Units for Semantic
Segmentation [22.048328293739182]
セマンティックイメージセグメンテーションのための多レベルコントラストユニット(ADA-MCU)を用いた新しいアクティブドメイン適応方式を提案する。
ADA-MCUは、ラベル付きおよびラベルなしのピクセルを使用して、画像内、クロスイメージ、およびクロスドメインレベルから構築される。
提案手法は,ラベル付き画素を50%減らした最先端のSSDA手法に対する競合性能を実現し,同レベルのアノテーションコストを用いることで,最先端のSSDA手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:55:39Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。