論文の概要: Video Instance Segmentation in an Open-World
- arxiv url: http://arxiv.org/abs/2304.01200v1
- Date: Mon, 3 Apr 2023 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:08:04.192207
- Title: Video Instance Segmentation in an Open-World
- Title(参考訳): オープンワールドにおけるビデオインスタンスセグメンテーション
- Authors: Omkar Thawakar, Sanath Narayan, Hisham Cholakkal, Rao Muhammad Anwer,
Salman Khan, Jorma Laaksonen, Mubarak Shah, Fahad Shahbaz Khan
- Abstract要約: ビデオインスタンスセグメンテーション(VIS)アプローチは一般にクローズドワールドの仮定に従う。
OW-VISFormerと呼ばれるオープンワールドなVISアプローチを提案する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
- 参考スコア(独自算出の注目度): 112.02667959850436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video instance segmentation (VIS) approaches generally follow a
closed-world assumption, where only seen category instances are identified and
spatio-temporally segmented at inference. Open-world formulation relaxes the
close-world static-learning assumption as follows: (a) first, it distinguishes
a set of known categories as well as labels an unknown object as `unknown' and
then (b) it incrementally learns the class of an unknown as and when the
corresponding semantic labels become available. We propose the first open-world
VIS approach, named OW-VISFormer, that introduces a novel feature enrichment
mechanism and a spatio-temporal objectness (STO) module. The feature enrichment
mechanism based on a light-weight auxiliary network aims at accurate
pixel-level (unknown) object delineation from the background as well as
distinguishing category-specific known semantic classes. The STO module strives
to generate instance-level pseudo-labels by enhancing the foreground
activations through a contrastive loss. Moreover, we also introduce an
extensive experimental protocol to measure the characteristics of OW-VIS. Our
OW-VISFormer performs favorably against a solid baseline in OW-VIS setting.
Further, we evaluate our contributions in the standard fully-supervised VIS
setting by integrating them into the recent SeqFormer, achieving an absolute
gain of 1.6\% AP on Youtube-VIS 2019 val. set. Lastly, we show the
generalizability of our contributions for the open-world detection (OWOD)
setting, outperforming the best existing OWOD method in the literature. Code,
models along with OW-VIS splits are available at
\url{https://github.com/OmkarThawakar/OWVISFormer}.
- Abstract(参考訳): 既存のビデオ・インスタンス・セグメンテーション(VIS)のアプローチは一般的にクローズド・ワールドの仮定に従う。
オープンワールドの定式化は、次のような密世界の静的学習の仮定を緩和する。
(a)まず、既知のカテゴリの集合を区別し、未知のオブジェクトを「未知」とラベルし、次に
b) 未知のクラスと対応するセマンティックラベルが利用可能になったときのクラスを漸進的に学習する。
OW-VISFormerという名前のオープンワールドVISアプローチを提案し、新しい機能強化機構と時空間オブジェクトネス(STO)モジュールを提案する。
軽量補助ネットワークに基づく特徴強調機構は,背景からの正確な画素レベルの(未知の)オブジェクト記述と,カテゴリ固有の既知のセマンティッククラスを識別することを目的としている。
STOモジュールは、対照的な損失によって前景のアクティベーションを強化することで、インスタンスレベルの擬似ラベルを生成する。
さらに、OW-VISの特性を測定するための広範な実験プロトコルも導入する。
我々のOW-VISFormerはOW-VIS設定において、ソリッドベースラインに対して良好に動作します。
さらに,最新のSeqFormerに組み込むことで,標準のフル教師付きVIS設定へのコントリビューションを評価し, Youtube-VIS 2019 val において 1.6 % AP の絶対ゲインを実現した。
セット
最後に,open-world detection (owod) 設定に対する我々の貢献の汎用性を示す。
OW-VISスプリットと共にコード、モデルは \url{https://github.com/OmkarThawakar/OWVISFormer} で入手できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - OpenVIS: Open-vocabulary Video Instance Segmentation [24.860711503327323]
OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
InstFormerは、限られたカテゴリデータによる軽量な微調整により、強力なオープン語彙機能を実現するフレームワークである。
論文 参考訳(メタデータ) (2023-05-26T11:25:59Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - ElC-OIS: Ellipsoidal Clustering for Open-World Instance Segmentation on
LiDAR Data [13.978966783993146]
オープンワールドインスタンス(OIS)は、現在の観察に現れるすべてのオブジェクトインスタンスを正確に分割することを目的とした、難しいタスクである。
これは、堅牢な自律ナビゲーションのような安全クリティカルなアプリケーションにとって重要である。
我々は、LiDARポイントクラウドのための柔軟で効果的なOISフレームワークを提案し、既知のインスタンスと未知のインスタンスの両方を正確に分割できる。
論文 参考訳(メタデータ) (2023-03-08T03:22:11Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。