論文の概要: ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2408.04883v1
- Date: Fri, 9 Aug 2024 06:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:28:59.505322
- Title: ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation
- Title(参考訳): ProxyCLIP: オープン語彙セグメンテーションのためのCLIPを改善するプロキシアテンション
- Authors: Mengcheng Lan, Chaofeng Chen, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang,
- Abstract要約: オープン語彙セマンティックセグメンテーションは、視覚表現とセマンティックラベルを統合するモデルを必要とする。
本稿では,CLIP(Contrastive Language- Image Pre-Training)とVFM(Vision Foundation Models)の強みを調和させるフレームワークであるProxyCLIPを紹介する。
トレーニングなしのアプローチとして、ProxyCLIP は平均的な平均接点(mIoU)を40.3から44.4までの8つのベンチマークで大幅に改善する。
- 参考スコア(独自算出の注目度): 32.852004564832455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation requires models to effectively integrate visual representations with open-vocabulary semantic labels. While Contrastive Language-Image Pre-training (CLIP) models shine in recognizing visual concepts from text, they often struggle with segment coherence due to their limited localization ability. In contrast, Vision Foundation Models (VFMs) excel at acquiring spatially consistent local visual representations, yet they fall short in semantic understanding. This paper introduces ProxyCLIP, an innovative framework designed to harmonize the strengths of both CLIP and VFMs, facilitating enhanced open-vocabulary semantic segmentation. ProxyCLIP leverages the spatial feature correspondence from VFMs as a form of proxy attention to augment CLIP, thereby inheriting the VFMs' robust local consistency and maintaining CLIP's exceptional zero-shot transfer capacity. We propose an adaptive normalization and masking strategy to get the proxy attention from VFMs, allowing for adaptation across different VFMs. Remarkably, as a training-free approach, ProxyCLIP significantly improves the average mean Intersection over Union (mIoU) across eight benchmarks from 40.3 to 44.4, showcasing its exceptional efficacy in bridging the gap between spatial precision and semantic richness for the open-vocabulary segmentation task.
- Abstract(参考訳): オープン語彙セマンティックセグメンテーションは、視覚表現とオープン語彙セマンティックラベルを効果的に統合するモデルを必要とする。
Contrastive Language-Image Pre-Training (CLIP) モデルはテキストから視覚概念を認識するのに優れているが、ローカライゼーション能力が限られているため、セグメントコヒーレンスに苦慮することが多い。
対照的に、ビジョン・ファンデーション・モデル(VFM)は空間的に一貫した局所的な視覚的表現の獲得に優れるが、意味的理解では不足する。
本稿では,CLIPとVFMの長所を調和させる革新的なフレームワークであるProxyCLIPを紹介する。
ProxyCLIPは、VFMからの空間的特徴対応をプロキシ注意の形で利用し、CLIPを増強することで、VFMの堅牢な局所一貫性を継承し、CLIPの例外的なゼロショット転送能力を維持する。
本稿では,VFMからプロキシの注意を引くための適応正規化とマスキング手法を提案する。
注目すべきは、トレーニングなしのアプローチとして、ProxyCLIPは、オープン語彙セグメンテーションタスクの空間的精度とセマンティックリッチネスのギャップを埋める際、例外的な有効性を示す8つのベンチマークで、平均mIoU(Intersection over Union)を40.3から44.4に改善したことである。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Generalization Boosted Adapter for Open-Vocabulary Segmentation [15.91026999425076]
Generalization Boosted Adapter (GBA) は、視覚言語モデルの一般化と堅牢性を高める新しいアダプタ戦略である。
シンプルで効率的でプラグアンドプレイなコンポーネントとして、GAAは様々なCLIPベースのメソッドに柔軟に統合できる。
論文 参考訳(メタデータ) (2024-09-13T01:49:12Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。
MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。
オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。