論文の概要: OpenVIS: Open-vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2305.16835v2
- Date: Sun, 10 Mar 2024 08:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:15:11.482715
- Title: OpenVIS: Open-vocabulary Video Instance Segmentation
- Title(参考訳): OpenVIS: オープン語彙ビデオインスタンスセグメンテーション
- Authors: Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu
Chen, Wenqiang Zhang
- Abstract要約: OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
我々は、強力なオープン語彙機能を実現するOpenVISフレームワークInstFormerを提案する。
- 参考スコア(独自算出の注目度): 26.107369797422145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary Video Instance Segmentation (OpenVIS) can simultaneously
detect, segment, and track arbitrary object categories in a video, without
being constrained to categories seen during training. In this work, we propose
an OpenVIS framework called InstFormer that achieves powerful open vocabulary
capability through lightweight fine-tuning on a limited-category labeled
dataset. Specifically, InstFormer comes in three steps a) Open-world Mask
Proposal: we utilize a query-based transformer, which is encouraged to propose
all potential object instances, to obtain class-agnostic instance masks; b)
Open-vocabulary Instance Representation and Classification: we propose
InstCLIP, adapted from pre-trained CLIP with Instance Guidance Attention.
InstCLIP generates the instance token capable of representing each
open-vocabulary instance. These instance tokens not only enable open-vocabulary
classification for multiple instances with a single CLIP forward pass but have
also been proven effective for subsequent open-vocabulary instance tracking. c)
Rollout Association: we introduce a class-agnostic rollout tracker to predict
rollout tokens from the tracking tokens of previous frames to enable
open-vocabulary instance association across frames in the video. The
experimental results demonstrate the proposed InstFormer achieve
state-of-the-art capabilities on a comprehensive OpenVIS evaluation benchmark,
while also achieves competitive performance in fully supervised VIS task.
- Abstract(参考訳): OpenVIS(Open-vocabulary Video Instance Segmentation)は、トレーニング中に見られるカテゴリに制約されることなく、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
本研究では,制限付きラベル付きデータセットを軽量に微調整することで,強力なオープン語彙を実現するOpenVISフレームワークInstFormerを提案する。
特にInstFormerには3つのステップがある
a)オープンワールドマスクの提案:全ての潜在的オブジェクトインスタンスの提案を推奨するクエリベースのトランスフォーマーを使用して、クラスに依存しないインスタンスマスクを取得する。
b) オープン語彙のインスタンス表現と分類: 事前学習したCLIPからインスタンス誘導を意図したInstCLIPを提案する。
InstCLIPは、各オープン語彙インスタンスを表現可能なインスタンストークンを生成する。
これらのインスタンストークンは、単一のCLIPフォワードパスを持つ複数のインスタンスのオープン語彙分類を可能にするだけでなく、その後のオープン語彙インスタンス追跡にも有効であることが証明されている。
c) ロールアウトアソシエーション: 従来のフレームのトラッキングトークンからロールアウトトークンを予測し,ビデオ内のフレーム間のオープン語彙インスタンスアソシエーションを可能にする,クラスに依存しないロールアウトトラッカーを導入する。
提案するinstformerは,包括的openvis評価ベンチマークで最先端性能を実現するとともに,visタスクにおける競合性能も達成する。
関連論文リスト
- OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation [44.450243388665776]
我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは凍結したCLIP画像エンコーダを採用し、クラス非依存マスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
論文 参考訳(メタデータ) (2024-03-19T05:27:04Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - OpenSD: Unified Open-Vocabulary Segmentation and Detection [24.08879095731279]
オープン語彙のセグメンテーションと検出タスクを処理するために,OpenSDと略されるユニバーサルトランスフォーマーベースのフレームワークを提案する。
エンドツーエンドのセグメンテーションと検出にCLIPをよりよく活用するために、語彙内ドメインと語彙外ドメインを扱うための2つの分類器を提案する。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-10T08:51:34Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Video Instance Segmentation in an Open-World [112.02667959850436]
ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
論文 参考訳(メタデータ) (2023-04-03T17:59:52Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。