論文の概要: OpenVIS: Open-vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2305.16835v3
- Date: Sat, 17 Aug 2024 09:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:36:46.712854
- Title: OpenVIS: Open-vocabulary Video Instance Segmentation
- Title(参考訳): OpenVIS: オープン語彙ビデオインスタンスセグメンテーション
- Authors: Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu Chen, Wenqiang Zhang,
- Abstract要約: OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
InstFormerは、限られたカテゴリデータによる軽量な微調整により、強力なオープン語彙機能を実現するフレームワークである。
- 参考スコア(独自算出の注目度): 24.860711503327323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary Video Instance Segmentation (OpenVIS) can simultaneously detect, segment, and track arbitrary object categories in a video, without being constrained to categories seen during training. In this work, we propose InstFormer, a carefully designed framework for the OpenVIS task that achieves powerful open-vocabulary capabilities through lightweight fine-tuning with limited-category data. InstFormer begins with the open-world mask proposal network, encouraged to propose all potential instance class-agnostic masks by the contrastive instance margin loss. Next, we introduce InstCLIP, adapted from pre-trained CLIP with Instance Guidance Attention, which encodes open-vocabulary instance tokens efficiently. These instance tokens not only enable open-vocabulary classification but also offer strong universal tracking capabilities. Furthermore, to prevent the tracking module from being constrained by the training data with limited categories, we propose the universal rollout association, which transforms the tracking problem into predicting the next frame's instance tracking token. The experimental results demonstrate the proposed InstFormer achieve state-of-the-art capabilities on a comprehensive OpenVIS evaluation benchmark, while also achieves competitive performance in fully supervised VIS task.
- Abstract(参考訳): OpenVIS(Open-vocabulary Video Instance Segmentation)は、トレーニング中に見られるカテゴリに制約されることなく、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
本研究では,OpenVISタスクのための慎重に設計されたフレームワークであるInstFormerを提案する。
InstFormerは、オープンワールドマスクの提案ネットワークから始まり、コントラストのあるインスタンスマージン損失によって、すべての潜在的なインスタンスクラスに依存しないマスクを提案することを奨励している。
次に、オープン語彙のインスタンストークンを効率的にエンコードするインスタンス誘導注意による事前訓練済みCLIPから適応したInstCLIPを紹介します。
これらのインスタンストークンは、オープン語彙分類を可能にするだけでなく、強力なユニバーサルトラッキング機能を提供する。
さらに,特定カテゴリのトレーニングデータによるトラッキングモジュールの制約を回避するために,トラッキング問題を次のフレームのインスタンス追跡トークンの予測に変換するユニバーサルロールアウトアソシエーションを提案する。
実験の結果,提案したInstFormerは,総合的なOpenVIS評価ベンチマークで最先端の機能を実現するとともに,完全な教師付きVISタスクにおける競合性能も達成した。
関連論文リスト
- OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation [54.98688607911399]
オープン語彙セグメンテーションのための新しいタスクドメイン適応を導入する。
本稿では,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。
この結果は,オープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation [44.450243388665776]
我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは凍結したCLIP画像エンコーダを採用し、クラス非依存マスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
論文 参考訳(メタデータ) (2024-03-19T05:27:04Z) - OpenSD: Unified Open-Vocabulary Segmentation and Detection [24.08879095731279]
オープン語彙のセグメンテーションと検出タスクを処理するために,OpenSDと略されるユニバーサルトランスフォーマーベースのフレームワークを提案する。
エンドツーエンドのセグメンテーションと検出にCLIPをよりよく活用するために、語彙内ドメインと語彙外ドメインを扱うための2つの分類器を提案する。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-10T08:51:34Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Video Instance Segmentation in an Open-World [112.02667959850436]
ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
論文 参考訳(メタデータ) (2023-04-03T17:59:52Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。