論文の概要: OW-VISCap: Open-World Video Instance Segmentation and Captioning
- arxiv url: http://arxiv.org/abs/2404.03657v1
- Date: Thu, 4 Apr 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:52:38.964133
- Title: OW-VISCap: Open-World Video Instance Segmentation and Captioning
- Title(参考訳): OW-VISCap: オープンワールドビデオインスタンスのセグメンテーションとキャプション
- Authors: Anwesa Choudhuri, Girish Chowdhary, Alexander G. Schwing,
- Abstract要約: 本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
- 参考スコア(独自算出の注目度): 95.6696714640357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world video instance segmentation is an important video understanding task. Yet most methods either operate in a closed-world setting, require an additional user-input, or use classic region-based proposals to identify never before seen objects. Further, these methods only assign a one-word label to detected objects, and don't generate rich object-centric descriptions. They also often suffer from highly overlapping predictions. To address these issues, we propose Open-World Video Instance Segmentation and Captioning (OW-VISCap), an approach to jointly segment, track, and caption previously seen or unseen objects in a video. For this, we introduce open-world object queries to discover never before seen objects without additional user-input. We generate rich and descriptive object-centric captions for each detected object via a masked attention augmented LLM input. We introduce an inter-query contrastive loss to ensure that the object queries differ from one another. Our generalized approach matches or surpasses state-of-the-art on three tasks: open-world video instance segmentation on the BURST dataset, dense video object captioning on the VidSTG dataset, and closed-world video instance segmentation on the OVIS dataset.
- Abstract(参考訳): オープンワールドビデオインスタンスのセグメンテーションは重要なビデオ理解タスクである。
しかし、ほとんどのメソッドはクローズドワールド環境で動作し、追加のユーザインプットを必要とするか、あるいは古典的なリージョンベースの提案を使用して、見たことのないオブジェクトを識別する。
さらに、これらのメソッドは検出されたオブジェクトにワンワードラベルのみを割り当て、リッチなオブジェクト中心の記述を生成しない。
また、しばしば重なり合う予測に悩まされる。
これらの課題に対処するため、我々は、以前に見た、あるいは見えないオブジェクトを共同でセグメント化、追跡、キャプションするOpen-World Video Instance Segmentation and Captioning (OW-VISCap)を提案する。
このために,オープンワールドなオブジェクトクエリを導入して,ユーザ入力を必要とせずに,これまで見たことのないオブジェクトを検出する。
検出対象ごとのリッチで記述的オブジェクト中心のキャプションを,マスク付注意強調LDM入力により生成する。
オブジェクトクエリが互いに異なることを保証するために、クエリ間のコントラスト損失を導入します。
我々の一般化されたアプローチは、BURSTデータセットのオープンワールドビデオインスタンスセグメンテーション、VidSTGデータセットの高密度ビデオオブジェクトキャプション、OVISデータセットのクローズワールドビデオインスタンスセグメンテーションの3つのタスクにおいて、最先端の課題と一致または超えている。
関連論文リスト
- VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - ClickVOS: Click Video Object Segmentation [29.20434078000283]
Video Object(VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
これらの制限に対処するため、Click Video Object (ClickVOS) という設定を提案する。
ClickVOSは、第1フレーム内のオブジェクトごとのクリック数に応じて、ビデオ全体を通して関心のあるオブジェクトをセグメントする。
論文 参考訳(メタデータ) (2024-03-10T08:37:37Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Slot-VPS: Object-centric Representation Learning for Video Panoptic
Segmentation [29.454785969084384]
Video Panoptic (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としている。
このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを紹介します。
論文 参考訳(メタデータ) (2021-12-16T15:12:22Z) - Unidentified Video Objects: A Benchmark for Dense, Open-World
Segmentation [29.81399150391822]
ビデオのオープンワールドクラス非依存オブジェクトセグメンテーションの新しいベンチマークであるUVOを紹介します。
UVOは、DAVISの約8倍の動画を提供し、YouTube-VOSやYouTube-VISの7倍のマスク(インスタンス)アノテーションを提供する。
UVOは、混み合ったシーンや複雑な背景の動きを含む多くのビデオを含むため、さらに難しい。
論文 参考訳(メタデータ) (2021-04-10T06:16:25Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。