論文の概要: OW-VISCap: Open-World Video Instance Segmentation and Captioning
- arxiv url: http://arxiv.org/abs/2404.03657v1
- Date: Thu, 4 Apr 2024 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-05 13:52:38.964133
- Title: OW-VISCap: Open-World Video Instance Segmentation and Captioning
- Title(参考訳): OW-VISCap: オープンワールドビデオインスタンスのセグメンテーションとキャプション
- Authors: Anwesa Choudhuri, Girish Chowdhary, Alexander G. Schwing,
- Abstract要約: 本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
- 参考スコア(独自算出の注目度): 95.6696714640357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world video instance segmentation is an important video understanding task. Yet most methods either operate in a closed-world setting, require an additional user-input, or use classic region-based proposals to identify never before seen objects. Further, these methods only assign a one-word label to detected objects, and don't generate rich object-centric descriptions. They also often suffer from highly overlapping predictions. To address these issues, we propose Open-World Video Instance Segmentation and Captioning (OW-VISCap), an approach to jointly segment, track, and caption previously seen or unseen objects in a video. For this, we introduce open-world object queries to discover never before seen objects without additional user-input. We generate rich and descriptive object-centric captions for each detected object via a masked attention augmented LLM input. We introduce an inter-query contrastive loss to ensure that the object queries differ from one another. Our generalized approach matches or surpasses state-of-the-art on three tasks: open-world video instance segmentation on the BURST dataset, dense video object captioning on the VidSTG dataset, and closed-world video instance segmentation on the OVIS dataset.
- Abstract(参考訳): オープンワールドビデオインスタンスのセグメンテーションは重要なビデオ理解タスクである。
しかし、ほとんどのメソッドはクローズドワールド環境で動作し、追加のユーザインプットを必要とするか、あるいは古典的なリージョンベースの提案を使用して、見たことのないオブジェクトを識別する。
さらに、これらのメソッドは検出されたオブジェクトにワンワードラベルのみを割り当て、リッチなオブジェクト中心の記述を生成しない。
また、しばしば重なり合う予測に悩まされる。
これらの課題に対処するため、我々は、以前に見た、あるいは見えないオブジェクトを共同でセグメント化、追跡、キャプションするOpen-World Video Instance Segmentation and Captioning (OW-VISCap)を提案する。
このために,オープンワールドなオブジェクトクエリを導入して,ユーザ入力を必要とせずに,これまで見たことのないオブジェクトを検出する。
検出対象ごとのリッチで記述的オブジェクト中心のキャプションを,マスク付注意強調LDM入力により生成する。
オブジェクトクエリが互いに異なることを保証するために、クエリ間のコントラスト損失を導入します。
我々の一般化されたアプローチは、BURSTデータセットのオープンワールドビデオインスタンスセグメンテーション、VidSTGデータセットの高密度ビデオオブジェクトキャプション、OVISデータセットのクローズワールドビデオインスタンスセグメンテーションの3つのタスクにおいて、最先端の課題と一致または超えている。
関連論文リスト
- CTRL-O: Language-Controllable Object-Centric Visual Representation Learning [30.218743514199016]
オブジェクト中心表現学習は、視覚シーンを「スロット」または「オブジェクトファイル」と呼ばれる固定サイズのベクトルに分解することを目的としている。
現在のオブジェクト中心モデルは、ユーザがどのオブジェクトが表現されているかをガイドすることなく、事前に考えられたオブジェクトの理解に基づいて表現を学習する。
言語記述の条件付けによるスロット表現に対するユーザ指向制御のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:53:50Z) - See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding [21.64446104872021]
オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。
本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。
複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-12T08:59:33Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - ClickVOS: Click Video Object Segmentation [29.20434078000283]
Video Object(VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
これらの制限に対処するため、Click Video Object (ClickVOS) という設定を提案する。
ClickVOSは、第1フレーム内のオブジェクトごとのクリック数に応じて、ビデオ全体を通して関心のあるオブジェクトをセグメントする。
論文 参考訳(メタデータ) (2024-03-10T08:37:37Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Slot-VPS: Object-centric Representation Learning for Video Panoptic
Segmentation [29.454785969084384]
Video Panoptic (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としている。
このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを紹介します。
論文 参考訳(メタデータ) (2021-12-16T15:12:22Z) - Unidentified Video Objects: A Benchmark for Dense, Open-World
Segmentation [29.81399150391822]
ビデオのオープンワールドクラス非依存オブジェクトセグメンテーションの新しいベンチマークであるUVOを紹介します。
UVOは、DAVISの約8倍の動画を提供し、YouTube-VOSやYouTube-VISの7倍のマスク(インスタンス)アノテーションを提供する。
UVOは、混み合ったシーンや複雑な背景の動きを含む多くのビデオを含むため、さらに難しい。
論文 参考訳(メタデータ) (2021-04-10T06:16:25Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。