論文の概要: CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2403.12455v3
- Date: Tue, 08 Oct 2024 10:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:50.093230
- Title: CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation
- Title(参考訳): CLIP-VIS: オープン語彙ビデオインスタンスセグメンテーションのためのCLIP適応
- Authors: Wenqi Zhu, Jiale Cao, Jin Xie, Shuangming Yang, Yanwei Pang,
- Abstract要約: 我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは、凍結したCLIPを採用し、クラスに依存しないマスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
- 参考スコア(独自算出の注目度): 44.450243388665776
- License:
- Abstract: Open-vocabulary video instance segmentation strives to segment and track instances belonging to an open set of categories in a videos. The vision-language model Contrastive Language-Image Pre-training (CLIP) has shown robust zero-shot classification ability in image-level open-vocabulary tasks. In this paper, we propose a simple encoder-decoder network, called CLIP-VIS, to adapt CLIP for open-vocabulary video instance segmentation. Our CLIP-VIS adopts frozen CLIP and introduces three modules, including class-agnostic mask generation, temporal topK-enhanced matching, and weighted open-vocabulary classification. Given a set of initial queries, class-agnostic mask generation introduces a pixel decoder and a transformer decoder on CLIP pre-trained image encoder to predict query masks and corresponding object scores and mask IoU scores. Then, temporal topK-enhanced matching performs query matching across frames using the K mostly matched frames. Finally, weighted open-vocabulary classification first employs mask pooling to generate query visual features from CLIP pre-trained image encoder, and second performs weighted classification using object scores and mask IoU scores. Our CLIP-VIS does not require the annotations of instance categories and identities. The experiments are performed on various video instance segmentation datasets, which demonstrate the effectiveness of our proposed method, especially for novel categories. When using ConvNeXt-B as backbone, our CLIP-VIS achieves the AP and APn scores of 32.2% and 40.2% on the validation set of LV-VIS dataset, which outperforms OV2Seg by 11.1% and 23.9% respectively. We will release the source code and models at https://github.com/zwq456/CLIP-VIS.git.
- Abstract(参考訳): Open-vocabularyビデオインスタンスのセグメンテーションは、ビデオ内のオープンなカテゴリに属するインスタンスをセグメンテーションし追跡する。
視覚言語モデルであるContrastive Language-Image Pre-Training (CLIP)は、画像レベルのオープン語彙タスクにおいて、堅牢なゼロショット分類能力を示している。
本稿では,CLIP-VISと呼ばれる簡単なエンコーダデコーダネットワークを提案する。
私たちのCLIP-VISは、凍結したCLIPを採用し、クラスに依存しないマスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
初期クエリのセットが与えられたとき、クラスに依存しないマスク生成は、クエリマスクと対応するオブジェクトスコアとマスクIoUスコアを予測するために、CLIPで事前訓練されたイメージエンコーダにピクセルデコーダとトランスフォーマーデコーダを導入する。
次に、時間的トップK強調マッチングは、主に一致したフレームを用いて、フレーム間のクエリマッチングを実行する。
最後に、重み付きオープン語彙分類では、まずマスクプーリングを用いて、CLIP事前訓練画像エンコーダからクエリビジュアル特徴を生成し、次に、オブジェクトスコアとマスクIoUスコアを使用して重み付き分類を行う。
私たちのCLIP-VISは、インスタンスカテゴリやIDのアノテーションを必要としない。
提案手法の有効性を実証するため,様々なビデオ・インスタンス・セグメンテーション・データセットを用いて実験を行った。
ConvNeXt-Bをバックボーンとして使用すると、私たちのCLIP-VISは、LV-VISデータセットの検証セットにおいて、APとAPnのスコアが32.2%、40.2%に達し、それぞれOV2Segを11.1%、23.9%上回る。
ソースコードとモデルはhttps://github.com/zwq456/CLIP-VIS.git.comで公開します。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - Open-Vocabulary Universal Image Segmentation with MaskCLIP [24.74805434602145]
我々は、新しいコンピュータビジョンタスク、オープン語彙のユニバーサルイメージセグメンテーションに取り組む。
トレーニング済みのCLIPモデルを直接適用することで,まずベースライン手法を構築する。
次に, MaskCLIP Visual を用いた Transformer ベースのアプローチである MaskCLIP を開発した。
論文 参考訳(メタデータ) (2022-08-18T17:55:37Z) - One-stage Video Instance Segmentation: From Frame-in Frame-out to
Clip-in Clip-out [15.082477136581153]
ビデオクリップの時間情報を利用するクリップインクリップアウト(CiCo)フレームワークを提案する。
CiCo戦略は条件付きフレームアライメントが不要で、既存のFiFoベースのVISアプローチに簡単に組み込むことができる。
2つの新しい1段VISモデルは37.7.3%、35.2/35.4%、17.2/1%のマスクAPを達成した。
論文 参考訳(メタデータ) (2022-03-12T12:23:21Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。