論文の概要: Video Object of Interest Segmentation
- arxiv url: http://arxiv.org/abs/2212.02871v1
- Date: Tue, 6 Dec 2022 10:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:59:34.936174
- Title: Video Object of Interest Segmentation
- Title(参考訳): 興味のセグメンテーションのビデオオブジェクト
- Authors: Siyuan Zhou and Chunru Zhan and Biao Wang and Tiezheng Ge and Yuning
Jiang and Li Niu
- Abstract要約: 我々はVOIS (Video Object of interest segmentation) という新しいコンピュータビジョンタスクを提案する。
ビデオと対象画像が与えられた場合、対象画像に関連するすべてのオブジェクトを同時にセグメンテーションし、追跡することが目的である。
既存のデータセットはこの新しいタスクに完全に適合しないので、特にLiveVideosと呼ばれる大規模なデータセットを構築します。
- 参考スコア(独自算出の注目度): 27.225312139360963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a new computer vision task named video object of
interest segmentation (VOIS). Given a video and a target image of interest, our
objective is to simultaneously segment and track all objects in the video that
are relevant to the target image. This problem combines the traditional video
object segmentation task with an additional image indicating the content that
users are concerned with. Since no existing dataset is perfectly suitable for
this new task, we specifically construct a large-scale dataset called
LiveVideos, which contains 2418 pairs of target images and live videos with
instance-level annotations. In addition, we propose a transformer-based method
for this task. We revisit Swin Transformer and design a dual-path structure to
fuse video and image features. Then, a transformer decoder is employed to
generate object proposals for segmentation and tracking from the fused
features. Extensive experiments on LiveVideos dataset show the superiority of
our proposed method.
- Abstract(参考訳): 本稿では,新たなコンピュータビジョンタスクであるvideo object of interest segmentation(vois)を提案する。
対象画像と対象画像が与えられた場合,対象画像に関連する映像中のすべてのオブジェクトを同時にセグメンテーションして追跡することが目的である。
この問題は、従来のビデオオブジェクトセグメンテーションタスクと、ユーザが関心を持っているコンテンツを示す追加のイメージを組み合わせる。
既存のデータセットは、この新しいタスクに完全に適合しないので、特に、2418対のターゲット画像とインスタンスレベルのアノテーションを備えたライブビデオを含む、LiveVideosと呼ばれる大規模なデータセットを構築します。
さらに,本課題に対するトランスフォーマーに基づく手法を提案する。
swin transformerを再検討し、ビデオと画像の機能を融合するデュアルパス構造を設計する。
次に、トランスデコーダを用いて、融合した特徴からセグメンテーションと追跡のためのオブジェクト提案を生成する。
LiveVideosデータセットの大規模な実験により,提案手法の優位性を示した。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-15T02:08:20Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。