論文の概要: CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2403.12455v2
- Date: Sat, 8 Jun 2024 00:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:43:59.837356
- Title: CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation
- Title(参考訳): CLIP-VIS: オープン語彙ビデオインスタンスセグメンテーションのためのCLIP適応
- Authors: Wenqi Zhu, Jiale Cao, Jin Xie, Shuangming Yang, Yanwei Pang,
- Abstract要約: 我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは凍結したCLIP画像エンコーダを採用し、クラス非依存マスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
- 参考スコア(独自算出の注目度): 44.450243388665776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary video instance segmentation strives to segment and track instances belonging to an open set of categories in a video. The vision-language model Contrastive Language-Image Pre-training (CLIP) has shown robust zero-shot classification ability in image-level open-vocabulary task. In this paper, we propose a simple encoder-decoder network, called CLIP-VIS, to adapt CLIP for open-vocabulary video instance segmentation. Our CLIP-VIS adopts frozen CLIP image encoder and introduces three modules, including class-agnostic mask generation, temporal topK-enhanced matching, and weighted open-vocabulary classification. Given a set of initial queries, class-agnostic mask generation employs a transformer decoder to predict query masks and corresponding object scores and mask IoU scores. Then, temporal topK-enhanced matching performs query matching across frames by using K mostly matched frames. Finally, weighted open-vocabulary classification first generates query visual features with mask pooling, and second performs weighted classification using object scores and mask IoU scores.Our CLIP-VIS does not require the annotations of instance categories and identities. The experiments are performed on various video instance segmentation datasets, which demonstrate the effectiveness of our proposed method, especially on novel categories. When using ConvNeXt-B as backbone, our CLIP-VIS achieves the AP and APn scores of 32.2% and 40.2% on validation set of LV-VIS dataset, which outperforms OV2Seg by 11.1% and 23.9% respectively. We will release the source code and models at https://github.com/zwq456/CLIP-VIS.git.
- Abstract(参考訳): Open-vocabularyビデオインスタンスのセグメンテーションは、ビデオ内のオープンなカテゴリに属するインスタンスをセグメンテーションし追跡する。
視覚言語モデルであるContrastive Language-Image Pre-training (CLIP)は、画像レベルのオープン語彙タスクにおいて、堅牢なゼロショット分類能力を示している。
本稿では,CLIP-VISと呼ばれる簡単なエンコーダデコーダネットワークを提案する。
私たちのCLIP-VISは凍結したCLIP画像エンコーダを採用し、クラス非依存マスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
初期クエリのセットが与えられた場合、クラスに依存しないマスク生成では、クエリマスクと対応するオブジェクトスコアとマスクIoUスコアを予測するトランスフォーマーデコーダが使用される。
次に、時間的トップK強調マッチングは、主に一致したフレームを用いて、フレーム間のクエリマッチングを実行する。
最後に、重み付きオープン語彙分類は、まず、マスクプーリングを伴うクエリビジュアル特徴を生成し、次に、オブジェクトスコアとマスクIoUスコアを使用して重み付き分類を行う。
提案手法の有効性を実証するため,様々なビデオ・インスタンス・セグメンテーション・データセットを用いて実験を行った。
ConvNeXt-Bをバックボーンとして使用すると、私たちのCLIP-VISは、LV-VISデータセットの検証セットにおいて、APとAPnのスコアが32.2%、40.2%に達し、それぞれOV2Segを11.1%、23.9%上回る。
ソースコードとモデルはhttps://github.com/zwq456/CLIP-VIS.git.comで公開します。
関連論文リスト
- OpenVIS: Open-vocabulary Video Instance Segmentation [26.107369797422145]
OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
我々は、強力なオープン語彙機能を実現するOpenVISフレームワークInstFormerを提案する。
論文 参考訳(メタデータ) (2023-05-26T11:25:59Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - Open-Vocabulary Universal Image Segmentation with MaskCLIP [24.74805434602145]
我々は、新しいコンピュータビジョンタスク、オープン語彙のユニバーサルイメージセグメンテーションに取り組む。
トレーニング済みのCLIPモデルを直接適用することで,まずベースライン手法を構築する。
次に, MaskCLIP Visual を用いた Transformer ベースのアプローチである MaskCLIP を開発した。
論文 参考訳(メタデータ) (2022-08-18T17:55:37Z) - One-stage Video Instance Segmentation: From Frame-in Frame-out to
Clip-in Clip-out [15.082477136581153]
ビデオクリップの時間情報を利用するクリップインクリップアウト(CiCo)フレームワークを提案する。
CiCo戦略は条件付きフレームアライメントが不要で、既存のFiFoベースのVISアプローチに簡単に組み込むことができる。
2つの新しい1段VISモデルは37.7.3%、35.2/35.4%、17.2/1%のマスクAPを達成した。
論文 参考訳(メタデータ) (2022-03-12T12:23:21Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。