論文の概要: OpenVIS: Open-vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2305.16835v1
- Date: Fri, 26 May 2023 11:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:21:53.269182
- Title: OpenVIS: Open-vocabulary Video Instance Segmentation
- Title(参考訳): OpenVIS: オープン語彙ビデオインスタンスセグメンテーション
- Authors: Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu
Chen, Wenqiang Zhang
- Abstract要約: Open-vocabulary video instance segmentation (OpenVIS) という新しいコンピュータビジョンタスクを提案し,検討する。
OpenVISは、対応するテキスト記述に従って、ビデオ内の任意のオブジェクトを同時に分割、検出、追跡することを目的としている。
本稿では,高品質なクラス非依存のオブジェクトマスクを提案するための2段階パイプラインを提案し,それに対応するカテゴリを事前学習したVLMを用いて予測する。
- 参考スコア(独自算出の注目度): 13.389338896523924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and study a new computer vision task named open-vocabulary video
instance segmentation (OpenVIS), which aims to simultaneously segment, detect,
and track arbitrary objects in a video according to corresponding text
descriptions. Compared to the original video instance segmentation, OpenVIS
enables users to identify objects of desired categories, regardless of whether
those categories were included in the training dataset. To achieve this goal,
we propose a two-stage pipeline for proposing high-quality class-agnostic
object masks and predicting their corresponding categories via pre-trained VLM.
Specifically, we first employ a query-based mask proposal network to generate
masks of all potential objects, where we replace the original class head with
an instance head trained with a binary object loss, thereby enhancing the
class-agnostic mask proposal ability. Then, we introduce a proposal
post-processing approach to adapt the proposals better to the pre-trained VLMs,
avoiding distortion and unnatural proposal inputs. Meanwhile, to facilitate
research on this new task, we also propose an evaluation benchmark that
utilizes off-the-shelf datasets to comprehensively assess its performance.
Experimentally, the proposed OpenVIS exhibits a remarkable 148\% improvement
compared to the full-supervised baselines on BURST, which have been trained on
all categories.
- Abstract(参考訳): 本研究では,ビデオ中の任意のオブジェクトをテキスト記述に従って同時分割,検出,追跡することを目的とした,オープン語彙ビデオインスタンスセグメンテーション(OpenVIS)というコンピュータビジョンタスクを提案する。
オリジナルのビデオインスタンスセグメンテーションと比較して、OpenVISでは、トレーニングデータセットに含まれているかどうかに関わらず、望ましいカテゴリのオブジェクトを識別することができる。
この目的を達成するために,高品質なクラス非依存オブジェクトマスクの提案と,事前学習したvlmによる対応するカテゴリの予測を行う2段階パイプラインを提案する。
具体的には、クエリベースのマスク提案ネットワークを使用して、すべての潜在的なオブジェクトのマスクを生成し、元のクラスヘッドをバイナリオブジェクト損失でトレーニングされたインスタンスヘッドに置き換えることで、クラス非依存なマスク提案能力を向上します。
そこで本研究では,提案手法を事前学習したVLMに適応させるための提案後処理手法を提案し,歪みや不自然な提案入力を回避する。
また,本課題の研究を促進するために,市販のデータセットを用いてその性能を総合的に評価する評価ベンチマークを提案する。
実験により,提案したOpenVISは,すべてのカテゴリでトレーニングされているBURSTのフル教師付きベースラインと比較して,18%の大幅な改善を示した。
関連論文リスト
- OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation [44.450243388665776]
我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは凍結したCLIP画像エンコーダを採用し、クラス非依存マスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
論文 参考訳(メタデータ) (2024-03-19T05:27:04Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - OpenSD: Unified Open-Vocabulary Segmentation and Detection [24.08879095731279]
オープン語彙のセグメンテーションと検出タスクを処理するために,OpenSDと略されるユニバーサルトランスフォーマーベースのフレームワークを提案する。
エンドツーエンドのセグメンテーションと検出にCLIPをよりよく活用するために、語彙内ドメインと語彙外ドメインを扱うための2つの分類器を提案する。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-10T08:51:34Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Video Instance Segmentation in an Open-World [112.02667959850436]
ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
論文 参考訳(メタデータ) (2023-04-03T17:59:52Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。