論文の概要: Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2408.00744v1
- Date: Thu, 1 Aug 2024 17:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:37:48.243190
- Title: Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation
- Title(参考訳): オープンボキャブラリセグメンテーションのための協調的視覚テキスト表現
- Authors: Siyu Jiao, Hongguang Zhu, Jiannan Huang, Yao Zhao, Yunchao Wei, Humphrey Shi,
- Abstract要約: 本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
- 参考スコア(独自算出の注目度): 82.95830628372845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained vision-language models, e.g. CLIP, have been increasingly used to address the challenging Open-Vocabulary Segmentation (OVS) task, benefiting from their well-aligned vision-text embedding space. Typical solutions involve either freezing CLIP during training to unilaterally maintain its zero-shot capability, or fine-tuning CLIP vision encoder to achieve perceptual sensitivity to local regions. However, few of them incorporate vision-text collaborative optimization. Based on this, we propose the Content-Dependent Transfer to adaptively enhance each text embedding by interacting with the input image, which presents a parameter-efficient way to optimize the text representation. Besides, we additionally introduce a Representation Compensation strategy, reviewing the original CLIP-V representation as compensation to maintain the zero-shot capability of CLIP. In this way, the vision and text representation of CLIP are optimized collaboratively, enhancing the alignment of the vision-text feature space. To the best of our knowledge, we are the first to establish the collaborative vision-text optimizing mechanism within the OVS field. Extensive experiments demonstrate our method achieves superior performance on popular OVS benchmarks. In open-vocabulary semantic segmentation, our method outperforms the previous state-of-the-art approaches by +0.5, +2.3, +3.4, +0.4 and +1.1 mIoU, respectively on A-847, A-150, PC-459, PC-59 and PAS-20. Furthermore, in a panoptic setting on ADE20K, we achieve the performance of 27.1 PQ, 73.5 SQ, and 32.9 RQ. Code will be available at https://github.com/jiaosiyu1999/MAFT-Plus.git .
- Abstract(参考訳): 事前トレーニングされた視覚言語モデル、例えばCLIPは、よく整合した視覚テキスト埋め込みスペースの恩恵を受けながら、挑戦的なOpen-Vocabulary Segmentation (OVS)タスクに対処するためにますます使われています。
典型的なソリューションは、トレーニング中のCLIPの凍結と、そのゼロショット能力の一方的な維持、あるいは局所領域に対する知覚感度を達成するための微調整CLIPビジョンエンコーダを含む。
しかし、視覚とテキストの協調最適化が組み込まれているものはほとんどない。
そこで本研究では,入力画像と対話してテキスト埋め込みを適応的に強化するContent-Dependent Transferを提案し,テキスト表現を最適化するパラメータ効率のよい方法を提案する。
さらに,CLIPのゼロショット能力を維持するために,元のCLIP-V表現を補正として再検討するRepresentation Compensation戦略を導入する。
このように、CLIPのビジョンとテキスト表現は協調的に最適化され、視覚テキストの特徴空間のアライメントが向上する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
大規模な実験により,本手法はOVSベンチマークにおいて優れた性能を発揮することが示された。
オープンボキャブラリセマンティックセグメンテーションでは,A-847,A-150,PC-459,PC-59,PAS-20,+0.5,+2.3,+3.4,+0.4,+1.1mIoUの手法よりも優れていた。
さらに、ADE20K上のパン光学系では、27.1 PQ、73.5 SQ、32.9 RQの性能を達成する。
コードはhttps://github.com/jiaosiyu 1999/MAFT-Plus.gitで入手できる。
関連論文リスト
- Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Intra-Modal Proxy Learning for Zero-Shot Visual Categorization with CLIP [15.48717971754816]
InMaPは、1つのGPUで1分以内にビジョンプロキシを取得でき、CLIPが事前トレーニングしたViT-L/14@336でImageNet上でのゼロショット精度を7.02%から80.21%に改善できる。
論文 参考訳(メタデータ) (2023-10-30T17:22:02Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - ICPC: Instance-Conditioned Prompting with Contrastive Learning for
Semantic Segmentation [26.25673603166731]
最近の研究は、知識をCLIPから素早い学習を通して意味的セグメンテーションに移行することで、有望なパフォーマンスを実現することができることを示している。
設計と損失関数の2つの側面から視覚テキストアライメントの質を向上させることに注力する。
我々は、視覚とテキストの埋め込みのアライメントを洗練させるために、アライメント誘導によるコントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-08-14T11:21:47Z) - CREPE: Learnable Prompting With CLIP Improves Visual Relationship
Prediction [30.921126445357118]
視覚オブジェクト関係の予測において,視覚言語モデル(VLM),特にCLIPの可能性を検討する。
現在の最先端の手法では、この課題に対処するために言語キューと視覚的特徴を利用する複雑なグラフィカルモデルを使用している。
我々はUVTransE関係予測フレームワークを採用し、シーンから主題、オブジェクト、ユニオンボックスへの翻訳埋め込みとして関係を学習する。
論文 参考訳(メタデータ) (2023-07-10T18:15:03Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。