Fugu-MT 論文翻訳(概要): Generalization Boosted Adapter for Open-Vocabulary Segmentation

論文の概要: Generalization Boosted Adapter for Open-Vocabulary Segmentation

arxiv url: http://arxiv.org/abs/2409.08468v1
Date: Fri, 13 Sep 2024 01:49:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 18:07:55.073867
Title: Generalization Boosted Adapter for Open-Vocabulary Segmentation
Title（参考訳）: 開語彙セグメンテーションのための一般化促進型アダプタ
Authors: Wenhao Xu, Changwei Wang, Xuxiang Feng, Rongtao Xu, Longzhao Huang, Zherui Zhang, Li Guo, Shibiao Xu,
Abstract要約: Generalization Boosted Adapter (GBA) は、視覚言語モデルの一般化と堅牢性を高める新しいアダプタ戦略である。シンプルで効率的でプラグアンドプレイなコンポーネントとして、GAAは様々なCLIPベースのメソッドに柔軟に統合できる。
参考スコア（独自算出の注目度）: 15.91026999425076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) have demonstrated remarkable open-vocabulary object recognition capabilities, motivating their adaptation for dense prediction tasks like segmentation. However, directly applying VLMs to such tasks remains challenging due to their lack of pixel-level granularity and the limited data available for fine-tuning, leading to overfitting and poor generalization. To address these limitations, we propose Generalization Boosted Adapter (GBA), a novel adapter strategy that enhances the generalization and robustness of VLMs for open-vocabulary segmentation. GBA comprises two core components: (1) a Style Diversification Adapter (SDA) that decouples features into amplitude and phase components, operating solely on the amplitude to enrich the feature space representation while preserving semantic consistency; and (2) a Correlation Constraint Adapter (CCA) that employs cross-attention to establish tighter semantic associations between text categories and target regions, suppressing irrelevant low-frequency ``noise'' information and avoiding erroneous associations. Through the synergistic effect of the shallow SDA and the deep CCA, GBA effectively alleviates overfitting issues and enhances the semantic relevance of feature representations. As a simple, efficient, and plug-and-play component, GBA can be flexibly integrated into various CLIP-based methods, demonstrating broad applicability and achieving state-of-the-art performance on multiple open-vocabulary segmentation benchmarks.
Abstract（参考訳）: 視覚言語モデル(VLM)は、セグメンテーションのような密集した予測タスクへの適応を動機づけ、顕著なオープン語彙オブジェクト認識能力を示している。しかし、画素レベルの粒度の不足や微調整に使える限られたデータが不足しているため、こうしたタスクにVLMを直接適用することは依然として困難であり、過度に適合し、一般化が不十分である。これらの制約に対処するために,オープン語彙セグメンテーションのためのVLMの一般化とロバスト性を高める新しいアダプタ戦略であるGeneralization Boosted Adapter (GBA)を提案する。 GBAは,(1)特徴を振幅と位相成分に分離し,意味的整合性を維持しつつ特徴空間表現を充実させるための振幅のみを演算するスタイル多様化適応器(SDA)と,(2)テキストカテゴリと対象領域間のより密接な意味的関連を確立するために相互アテンションを利用する相関制約適応器(CCA)と,無関係な低周波の「ノイズ」情報を抑圧し,誤関連を避けるための2つのコアコンポーネントから構成される。浅部SDAと深部CAAの相乗効果により,GAAは過剰適合問題を効果的に軽減し,特徴表現の意味的関連性を高める。シンプルで効率的でプラグアンドプレイなコンポーネントとして、GBAは様々なCLIPベースのメソッドに柔軟に統合することができ、幅広い適用性を示し、複数のオープン語彙セグメンテーションベンチマークで最先端のパフォーマンスを達成することができる。

関連論文リスト

Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文参考訳（メタデータ） (2025-01-29T13:24:53Z)
FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文参考訳（メタデータ） (2025-01-01T15:47:04Z)
VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文参考訳（メタデータ） (2024-12-12T12:49:42Z)
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。 RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文参考訳（メタデータ） (2024-11-24T14:14:14Z)
MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。 MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文参考訳（メタデータ） (2024-08-27T04:45:53Z)
ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation [32.852004564832455]
オープン語彙セマンティックセグメンテーションは、視覚表現とセマンティックラベルを統合するモデルを必要とする。本稿では,CLIP(Contrastive Language- Image Pre-Training)とVFM(Vision Foundation Models)の強みを調和させるフレームワークであるProxyCLIPを紹介する。トレーニングなしのアプローチとして、ProxyCLIP は平均的な平均接点(mIoU)を40.3から44.4までの8つのベンチマークで大幅に改善する。
論文参考訳（メタデータ） (2024-08-09T06:17:00Z)
Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [79.66299178949257]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。 H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文参考訳（メタデータ） (2024-05-29T07:41:34Z)
Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文参考訳（メタデータ） (2024-03-06T13:43:36Z)
A Cross-Scale Hierarchical Transformer with Correspondence-Augmented Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文参考訳（メタデータ） (2023-04-07T13:52:47Z)
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。 VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文参考訳（メタデータ） (2022-10-09T01:49:58Z)
HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。 4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文参考訳（メタデータ） (2021-09-30T14:27:50Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。