論文の概要: VISA: Reasoning Video Object Segmentation via Large Language Models
- arxiv url: http://arxiv.org/abs/2407.11325v1
- Date: Tue, 16 Jul 2024 02:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:42:16.829538
- Title: VISA: Reasoning Video Object Segmentation via Large Language Models
- Title(参考訳): VISA:大規模言語モデルによるビデオオブジェクトのセグメンテーションの推論
- Authors: Cilin Yan, Haochen Wang, Shilin Yan, Xiaolong Jiang, Yao Hu, Guoliang Kang, Weidi Xie, Efstratios Gavves,
- Abstract要約: 我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
- 参考スコア(独自算出の注目度): 64.33167989521357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Video Object Segmentation (VOS) relies on explicit user instructions, such as categories, masks, or short phrases, restricting their ability to perform complex video segmentation requiring reasoning with world knowledge. In this paper, we introduce a new task, Reasoning Video Object Segmentation (ReasonVOS). This task aims to generate a sequence of segmentation masks in response to implicit text queries that require complex reasoning abilities based on world knowledge and video contexts, which is crucial for structured environment understanding and object-centric interactions, pivotal in the development of embodied AI. To tackle ReasonVOS, we introduce VISA (Video-based large language Instructed Segmentation Assistant), to leverage the world knowledge reasoning capabilities of multi-modal LLMs while possessing the ability to segment and track objects in videos with a mask decoder. Moreover, we establish a comprehensive benchmark consisting of 35,074 instruction-mask sequence pairs from 1,042 diverse videos, which incorporates complex world knowledge reasoning into segmentation tasks for instruction-tuning and evaluation purposes of ReasonVOS models. Experiments conducted on 8 datasets demonstrate the effectiveness of VISA in tackling complex reasoning segmentation and vanilla referring segmentation in both video and image domains. The code and dataset are available at https://github.com/cilinyan/VISA.
- Abstract(参考訳): 既存のビデオオブジェクトセグメンテーション(VOS)は、カテゴリ、マスク、ショートフレーズなどの明示的なユーザー指示に依存しており、世界知識の推論を必要とする複雑なビデオセグメンテーションを実行する能力を制限する。
本稿では,新しいタスクであるReasoning Video Object Segmentation(ReasonVOS)を紹介する。
この課題は、世界知識とビデオコンテキストに基づく複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
ReasonVOSに取り組むために,マスクデコーダを用いたビデオ内のオブジェクトのセグメンテーションと追跡機能を有しつつ,マルチモーダルLCMの世界の知識推論能力を活用するためのVISA(ビデオベース大規模言語命令セグメンテーションアシスタント)を導入する。
さらに、1,042の多様なビデオから35,074の命令マスクシーケンスペアからなる総合ベンチマークを構築し、複雑な世界知識推論をReasonVOSモデルの命令チューニングと評価のためのセグメンテーションタスクに組み込む。
8つのデータセットで行った実験は、ビデオ領域と画像領域の両方において、複雑な推論セグメンテーションとバニラ参照セグメンテーションに取り組む上で、VISAの有効性を示す。
コードとデータセットはhttps://github.com/cilinyan/VISAで公開されている。
関連論文リスト
- HyperSeg: Towards Universal Visual Segmentation with Large Language Model [40.326267496697845]
本稿では,視覚的大言語モデル(VLLM)による強力な推論能力により,画像・映像知覚の普遍的セグメンテーションを実現することを目的とする。
画素レベルの画像と映像知覚のための,VLLMに基づく最初のユニバーサルセグメンテーションモデルであるHyperSegを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:18:20Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。