Fugu-MT 論文翻訳(概要): Towards Open-Vocabulary Video Instance Segmentation

論文の概要: Towards Open-Vocabulary Video Instance Segmentation

arxiv url: http://arxiv.org/abs/2304.01715v2
Date: Sun, 6 Aug 2023 20:08:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 23:19:49.883773
Title: Towards Open-Vocabulary Video Instance Segmentation
Title（参考訳）: Open-Vocabulary Video Instance Segmentationに向けて
Authors: Haochen Wang, Cilin Yan, Shuai Wang, Xiaolong Jiang, XU Tang, Yao Hu, Weidi Xie, Efstratios Gavves
Abstract要約: Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。 Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
参考スコア（独自算出の注目度）: 61.469232166803465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Instance Segmentation (VIS) aims at segmenting and categorizing objects in videos from a closed set of training categories, lacking the generalization ability to handle novel categories in real-world videos. To address this limitation, we make the following three contributions. First, we introduce the novel task of Open-Vocabulary Video Instance Segmentation, which aims to simultaneously segment, track, and classify objects in videos from open-set categories, including novel categories unseen during training. Second, to benchmark Open-Vocabulary VIS, we collect a Large-Vocabulary Video Instance Segmentation dataset (LV-VIS), that contains well-annotated objects from 1,196 diverse categories, significantly surpassing the category size of existing datasets by more than one order of magnitude. Third, we propose an efficient Memory-Induced Transformer architecture, OV2Seg, to first achieve Open-Vocabulary VIS in an end-to-end manner with near real-time inference speed. Extensive experiments on LV-VIS and four existing VIS datasets demonstrate the strong zero-shot generalization ability of OV2Seg on novel categories. The dataset and code are released here https://github.com/haochenheheda/LVVIS.
Abstract（参考訳）: Video Instance Segmentation (VIS)は、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し、分類することを目的としている。この制限に対処するため、以下の3つの貢献をする。まず,オープン・ボキャブラリ・ビデオ・インスタンス・セグメンテーション(Open-Vocabulary Video Instance Segmentation)の課題を紹介する。次に,open-vocabulary visのベンチマークを行うため,既存のデータセットのカテゴリサイズを1桁以上上回る1,196のカテゴリの十分な注釈付きオブジェクトを含む,大語彙ビデオインスタンスセグメンテーションデータセット(lv-vis)を収集した。第3に,より効率的なメモリ駆動型トランスフォーマーアーキテクチャov2segを提案する。 LV-VISと既存の4つのVISデータセットに関する大規模な実験は、新しいカテゴリにおけるOV2Segの強いゼロショット一般化能力を示している。データセットとコードはhttps://github.com/haochenheda/lvvis。

関連論文リスト

Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。 OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文参考訳（メタデータ） (2024-12-12T14:53:16Z)
ReferEverything: Towards Segmenting Everything We Can Speak of in Videos [42.88584315033116]
本稿では、自然言語で記述可能なビデオのセグメンテーションフレームワークREMを提案する。提案手法は,インターネット規模のデータセット上での映像拡散モデルから学習した視覚表現に重きを置いている。
論文参考訳（メタデータ） (2024-10-30T17:59:26Z)
Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation [28.360157186395686]
Open-Vocabulary Video Instance (VIS)は、任意のオブジェクトのセグメンテーションと追跡機能によって、注目を集めている。我々はOVFormerと呼ばれる新しいオープン語彙VISベースラインを提案する。 OVFormerは軽量モジュールを使用して、クエリの埋め込みとCLIPイメージの埋め込みを統一する。従来の画像ベーストレーニングとは異なり、ビデオベースのモデルトレーニングを行い、ビデオ内の時間的一貫性を完全にマイニングする半オンライン推論スキームをデプロイする。
論文参考訳（メタデータ） (2024-07-10T07:30:51Z)
CAVIS: Context-Aware Video Instance Segmentation [12.71520768233772]
本稿では,コンテキスト対応型ビデオインスタンス(CAVIS)について紹介する。この情報を効率的に抽出し活用するために、コンテキスト認識型インスタンス追跡器(CAIT)を提案する。フレーム間のオブジェクトレベルの特徴の整合性を確保するため,プロトタイプ型クロスフレームコントラスト(PCC)損失を設計する。
論文参考訳（メタデータ） (2024-07-03T11:11:16Z)
UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。 UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文参考訳（メタデータ） (2024-06-11T03:05:50Z)
DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。 CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文参考訳（メタデータ） (2023-12-20T03:01:33Z)
Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文参考訳（メタデータ） (2023-09-07T17:59:41Z)
Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文参考訳（メタデータ） (2022-03-03T17:00:11Z)
Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文参考訳（メタデータ） (2021-03-25T10:58:36Z)
Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文参考訳（メタデータ） (2020-06-19T19:35:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。