論文の概要: OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning
- arxiv url: http://arxiv.org/abs/2404.03657v2
- Date: Mon, 09 Dec 2024 18:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:55.508020
- Title: OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning
- Title(参考訳): OW-VISCapTor: オープンワールドビデオインスタンスのセグメンテーションとキャプションの抽象化
- Authors: Anwesa Choudhuri, Girish Chowdhary, Alexander G. Schwing,
- Abstract要約: オープンワールドビデオインスタンスのセグメンテーションとキャプション」を新たに提案する。
検出、セグメンテーション、追跡、記述、リッチなキャプションによる記述は、これまで見たこともない。
我々は、オブジェクト抽象体とオブジェクトからテキストへの抽象体を開発する。
- 参考スコア(独自算出の注目度): 95.6696714640357
- License:
- Abstract: We propose the new task 'open-world video instance segmentation and captioning'. It requires to detect, segment, track and describe with rich captions never before seen objects. This challenging task can be addressed by developing "abstractors" which connect a vision model and a language foundation model. Concretely, we connect a multi-scale visual feature extractor and a large language model (LLM) by developing an object abstractor and an object-to-text abstractor. The object abstractor, consisting of a prompt encoder and transformer blocks, introduces spatially-diverse open-world object queries to discover never before seen objects in videos. An inter-query contrastive loss further encourages the diversity of object queries. The object-to-text abstractor is augmented with masked cross-attention and acts as a bridge between the object queries and a frozen LLM to generate rich and descriptive object-centric captions for each detected object. Our generalized approach surpasses the baseline that jointly addresses the tasks of open-world video instance segmentation and dense video object captioning by 13% on never before seen objects, and by 10% on object-centric captions.
- Abstract(参考訳): 本稿では,新しいタスク「オープンワールドビデオインスタンスのセグメンテーションとキャプション」を提案する。
検出、セグメンテーション、追跡、記述は、見たオブジェクトの前にないようなリッチなキャプションで行う必要がある。
この課題に対処するには、ビジョンモデルと言語基盤モデルを結ぶ"抽象的"を開発する必要がある。
具体的には,マルチスケールな視覚特徴抽出器と大規模言語モデル(LLM)を,オブジェクト抽象器とオブジェクトからテキストへの抽象器を開発することで接続する。
オブジェクト抽象子は、プロンプトエンコーダとトランスフォーマーブロックで構成されており、空間的に異なるオープンワールドオブジェクトクエリを導入して、ビデオで見たことのないオブジェクトを検出する。
クエリ間のコントラスト損失は、オブジェクトクエリの多様性をさらに促進します。
本発明のオブジェクト・トゥ・テキスト・コンストラクタは、マスク付きクロスアテンションで拡張され、オブジェクトクエリと凍結LDMとの間のブリッジとして機能し、検出された各オブジェクトに対してリッチで記述的なオブジェクト中心のキャプションを生成する。
我々の一般化されたアプローチは、オープンワールドビデオインスタンスセグメンテーションと高密度ビデオオブジェクトキャプションのタスクを、これまで見たことのないオブジェクトで13%、オブジェクト中心のキャプションで10%、共同で処理するベースラインを超えています。
関連論文リスト
- See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding [21.64446104872021]
オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。
本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。
複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-12T08:59:33Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。