Fugu-MT 論文翻訳(概要): Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation

論文の概要: Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation

arxiv url: http://arxiv.org/abs/2104.04691v1
Date: Sat, 10 Apr 2021 06:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-13 14:16:41.784263
Title: Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation
Title（参考訳）: 未確認ビデオオブジェクト:密集したオープンワールドセグメンテーションのためのベンチマーク
Authors: Weiyao Wang, Matt Feiszli, Heng Wang, Du Tran
Abstract要約: ビデオのオープンワールドクラス非依存オブジェクトセグメンテーションの新しいベンチマークであるUVOを紹介します。 UVOは、DAVISの約8倍の動画を提供し、YouTube-VOSやYouTube-VISの7倍のマスク(インスタンス)アノテーションを提供する。 UVOは、混み合ったシーンや複雑な背景の動きを含む多くのビデオを含むため、さらに難しい。
参考スコア（独自算出の注目度）: 29.81399150391822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current state-of-the-art object detection and segmentation methods work well under the closed-world assumption. This closed-world setting assumes that the list of object categories is available during training and deployment. However, many real-world applications require detecting or segmenting novel objects, i.e., object categories never seen during training. In this paper, we present, UVO (Unidentified Video Objects), a new benchmark for open-world class-agnostic object segmentation in videos. Besides shifting the problem focus to the open-world setup, UVO is significantly larger, providing approximately 8 times more videos compared with DAVIS, and 7 times more mask (instance) annotations per video compared with YouTube-VOS and YouTube-VIS. UVO is also more challenging as it includes many videos with crowded scenes and complex background motions. We demonstrated that UVO can be used for other applications, such as object tracking and super-voxel segmentation, besides open-world object segmentation. We believe that UVo is a versatile testbed for researchers to develop novel approaches for open-world class-agnostic object segmentation, and inspires new research directions towards a more comprehensive video understanding beyond classification and detection.
Abstract（参考訳）: 現在の最先端のオブジェクト検出とセグメンテーション手法は、クローズドワールドの仮定の下でうまく機能する。このクローズドワールド設定は、トレーニングとデプロイメントの間にオブジェクトカテゴリのリストが利用可能であることを前提としている。しかし、現実世界の多くのアプリケーションは、新しいオブジェクトを検知またはセグメント化する必要がある。本稿では,ビデオにおけるオープンワールドクラス非依存オブジェクトセグメンテーションのための新しいベンチマーク uvo (unidentified video objects) を提案する。問題の焦点をオープンワールドにシフトするだけでなく、UVOははるかに大きく、DAVISの約8倍のビデオを提供し、YouTube-VOSやYouTube-VISの7倍のマスク(インスタンス)アノテーションを提供する。 UVOは、混み合ったシーンや複雑な背景の動きを含む多くのビデオを含むため、さらに難しい。我々は,オープンワールドオブジェクトセグメンテーション以外に,オブジェクトトラッキングやスーパーボクセルセグメンテーションなど,他のアプリケーションにもUVOが利用できることを示した。 UVoは、オープンワールドのクラスに依存しないオブジェクトセグメンテーションのための新しいアプローチを開発するための、汎用的なテストベッドであると考えています。

関連論文リスト

Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。 OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。 VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文参考訳（メタデータ） (2024-10-11T05:01:49Z)
VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文参考訳（メタデータ） (2024-07-16T02:29:29Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文参考訳（メタデータ） (2024-04-04T17:59:58Z)
Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文参考訳（メタデータ） (2023-09-07T17:59:41Z)
Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。 Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文参考訳（メタデータ） (2023-04-04T11:25:23Z)
A Comprehensive Review of Modern Object Segmentation Approaches [1.7041248235270654]
画像セグメンテーション(英: Image segmentation)とは、画像中のピクセルをそれぞれのオブジェクトクラスラベルに関連付けるタスクである。画像レベルのオブジェクト認識と画素レベルのシーン理解のためのディープラーニングベースのアプローチが開発されている。イメージセグメンテーションタスクの拡張には、3Dとビデオセグメンテーションが含まれており、voxポイントクラウドのユニットとビデオフレームは異なるオブジェクトに分類される。
論文参考訳（メタデータ） (2023-01-13T19:35:46Z)
Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。 700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文参考訳（メタデータ） (2022-12-12T19:22:17Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。