論文の概要: OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning
- arxiv url: http://arxiv.org/abs/2404.03657v2
- Date: Mon, 09 Dec 2024 18:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:55.508020
- Title: OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning
- Title(参考訳): OW-VISCapTor: オープンワールドビデオインスタンスのセグメンテーションとキャプションの抽象化
- Authors: Anwesa Choudhuri, Girish Chowdhary, Alexander G. Schwing,
- Abstract要約: オープンワールドビデオインスタンスのセグメンテーションとキャプション」を新たに提案する。
検出、セグメンテーション、追跡、記述、リッチなキャプションによる記述は、これまで見たこともない。
我々は、オブジェクト抽象体とオブジェクトからテキストへの抽象体を開発する。
- 参考スコア(独自算出の注目度): 95.6696714640357
- License:
- Abstract: We propose the new task 'open-world video instance segmentation and captioning'. It requires to detect, segment, track and describe with rich captions never before seen objects. This challenging task can be addressed by developing "abstractors" which connect a vision model and a language foundation model. Concretely, we connect a multi-scale visual feature extractor and a large language model (LLM) by developing an object abstractor and an object-to-text abstractor. The object abstractor, consisting of a prompt encoder and transformer blocks, introduces spatially-diverse open-world object queries to discover never before seen objects in videos. An inter-query contrastive loss further encourages the diversity of object queries. The object-to-text abstractor is augmented with masked cross-attention and acts as a bridge between the object queries and a frozen LLM to generate rich and descriptive object-centric captions for each detected object. Our generalized approach surpasses the baseline that jointly addresses the tasks of open-world video instance segmentation and dense video object captioning by 13% on never before seen objects, and by 10% on object-centric captions.
- Abstract(参考訳): 本稿では,新しいタスク「オープンワールドビデオインスタンスのセグメンテーションとキャプション」を提案する。
検出、セグメンテーション、追跡、記述は、見たオブジェクトの前にないようなリッチなキャプションで行う必要がある。
この課題に対処するには、ビジョンモデルと言語基盤モデルを結ぶ"抽象的"を開発する必要がある。
具体的には,マルチスケールな視覚特徴抽出器と大規模言語モデル(LLM)を,オブジェクト抽象器とオブジェクトからテキストへの抽象器を開発することで接続する。
オブジェクト抽象子は、プロンプトエンコーダとトランスフォーマーブロックで構成されており、空間的に異なるオープンワールドオブジェクトクエリを導入して、ビデオで見たことのないオブジェクトを検出する。
クエリ間のコントラスト損失は、オブジェクトクエリの多様性をさらに促進します。
本発明のオブジェクト・トゥ・テキスト・コンストラクタは、マスク付きクロスアテンションで拡張され、オブジェクトクエリと凍結LDMとの間のブリッジとして機能し、検出された各オブジェクトに対してリッチで記述的なオブジェクト中心のキャプションを生成する。
我々の一般化されたアプローチは、オープンワールドビデオインスタンスセグメンテーションと高密度ビデオオブジェクトキャプションのタスクを、これまで見たことのないオブジェクトで13%、オブジェクト中心のキャプションで10%、共同で処理するベースラインを超えています。
関連論文リスト
- VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - ClickVOS: Click Video Object Segmentation [29.20434078000283]
Video Object(VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
これらの制限に対処するため、Click Video Object (ClickVOS) という設定を提案する。
ClickVOSは、第1フレーム内のオブジェクトごとのクリック数に応じて、ビデオ全体を通して関心のあるオブジェクトをセグメントする。
論文 参考訳(メタデータ) (2024-03-10T08:37:37Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Slot-VPS: Object-centric Representation Learning for Video Panoptic
Segmentation [29.454785969084384]
Video Panoptic (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としている。
このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを紹介します。
論文 参考訳(メタデータ) (2021-12-16T15:12:22Z) - Unidentified Video Objects: A Benchmark for Dense, Open-World
Segmentation [29.81399150391822]
ビデオのオープンワールドクラス非依存オブジェクトセグメンテーションの新しいベンチマークであるUVOを紹介します。
UVOは、DAVISの約8倍の動画を提供し、YouTube-VOSやYouTube-VISの7倍のマスク(インスタンス)アノテーションを提供する。
UVOは、混み合ったシーンや複雑な背景の動きを含む多くのビデオを含むため、さらに難しい。
論文 参考訳(メタデータ) (2021-04-10T06:16:25Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。