論文の概要: VoCap: Video Object Captioning and Segmentation from Any Prompt
- arxiv url: http://arxiv.org/abs/2508.21809v1
- Date: Fri, 29 Aug 2025 17:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.137874
- Title: VoCap: Video Object Captioning and Segmentation from Any Prompt
- Title(参考訳): VoCap:どんなプロンプトからでもビデオオブジェクトのキャプチャとセグメンテーション
- Authors: Jasper Uijlings, Xingyi Zhou, Xiuye Gu, Arsha Nagrani, Anurag Arnab, Alireza Fathi, David Ross, Cordelia Schmid,
- Abstract要約: VoCapは、ビデオセグメンテーションと様々なモダリティの迅速な理解を消費するフレキシブルモデルである。
プロンプト可能なビデオオブジェクトのセグメンテーション、参照、オブジェクトキャプションに対処する。
本モデルでは,表現対象のセグメンテーションについて,最新の結果が得られる。
- 参考スコア(独自算出の注目度): 78.90048335805047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding objects in videos in terms of fine-grained localization masks and detailed semantic properties is a fundamental task in video understanding. In this paper, we propose VoCap, a flexible video model that consumes a video and a prompt of various modalities (text, box or mask), and produces a spatio-temporal masklet with a corresponding object-centric caption. As such our model addresses simultaneously the tasks of promptable video object segmentation, referring expression segmentation, and object captioning. Since obtaining data for this task is tedious and expensive, we propose to annotate an existing large-scale segmentation dataset (SAV) with pseudo object captions. We do so by preprocessing videos with their ground-truth masks to highlight the object of interest and feed this to a large Vision Language Model (VLM). For an unbiased evaluation, we collect manual annotations on the validation set. We call the resulting dataset SAV-Caption. We train our VoCap model at scale on a SAV-Caption together with a mix of other image and video datasets. Our model yields state-of-the-art results on referring expression video object segmentation, is competitive on semi-supervised video object segmentation, and establishes a benchmark for video object captioning. Our dataset will be made available at https://github.com/google-deepmind/vocap.
- Abstract(参考訳): 微粒なローカライゼーションマスクと詳細なセマンティックプロパティでビデオ中のオブジェクトを理解することは、ビデオ理解の基本的な課題である。
本稿では,ビデオと様々なモダリティ(テキスト,ボックス,マスク)のプロンプトを消費するフレキシブルなビデオモデルであるVoCapを提案し,対応するオブジェクト中心のキャプションを備えた時空間マスクレットを生成する。
このようなモデルでは,映像オブジェクトのセグメンテーション,表現セグメンテーション,オブジェクトキャプションといったタスクを同時に処理する。
そこで本研究では,既存の大規模セグメンテーションデータセット(SAV)に擬似オブジェクトキャプションを付加したアノテートを提案する。
興味の対象を強調し、それを大きなビジョン言語モデル(VLM)にフィードするために、地上のマスキングでビデオを前処理する。
バイアスのない評価のために、検証セットのマニュアルアノテーションを収集します。
得られたデータセットをSAV-Captionと呼びます。
私たちは、他の画像とビデオのデータセットを混ぜ合わせて、SAV-Captionで大規模にVoCapモデルをトレーニングします。
提案モデルでは,映像オブジェクトのセグメンテーションの参照に対して最先端の結果が得られ,半教師付きビデオオブジェクトセグメンテーションと競合し,ビデオオブジェクトキャプションのベンチマークを確立する。
データセットはhttps://github.com/google-deepmind/vocap.comで公開されます。
関連論文リスト
- ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation [14.534308478766476]
何千もの挑戦的なビデオを含む新しいデータセットであるViCaSを紹介します。
本ベンチマークでは,全体的/高レベルの理解と言語誘導,画素精度のセグメンテーションに関するモデルを評価する。
論文 参考訳(メタデータ) (2024-12-12T23:10:54Z) - Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Event and Entity Extraction from Generated Video Captions [4.987670632802288]
本稿では,自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。
メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、ビデオカテゴリを考慮する。
我々は、ActivityNet Captionsデータセットのビデオのキャプションを生成するために、2つの最先端の高密度ビデオキャプションモデルを使用している。
論文 参考訳(メタデータ) (2022-11-05T22:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。