論文の概要: Sketch-based Video Object Segmentation: Benchmark and Analysis
- arxiv url: http://arxiv.org/abs/2311.07261v1
- Date: Mon, 13 Nov 2023 11:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:37:30.475151
- Title: Sketch-based Video Object Segmentation: Benchmark and Analysis
- Title(参考訳): sketch-based video object segmentation:ベンチマークと分析
- Authors: Ruolin Yang, Da Li, Conghui Hu, Timothy Hospedales, Honggang Zhang,
Yi-Zhe Song
- Abstract要約: 本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。
私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。
実験の結果、スケッチは、フォトマスク、言語、スクリブルなど、他の参照よりも効果的であるが、アノテーション効率が高いことが示された。
- 参考スコア(独自算出の注目度): 55.79497833614397
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reference-based video object segmentation is an emerging topic which aims to
segment the corresponding target object in each video frame referred by a given
reference, such as a language expression or a photo mask. However, language
expressions can sometimes be vague in conveying an intended concept and
ambiguous when similar objects in one frame are hard to distinguish by
language. Meanwhile, photo masks are costly to annotate and less practical to
provide in a real application. This paper introduces a new task of sketch-based
video object segmentation, an associated benchmark, and a strong baseline. Our
benchmark includes three datasets, Sketch-DAVIS16, Sketch-DAVIS17 and
Sketch-YouTube-VOS, which exploit human-drawn sketches as an informative yet
low-cost reference for video object segmentation. We take advantage of STCN, a
popular baseline of semi-supervised VOS task, and evaluate what the most
effective design for incorporating a sketch reference is. Experimental results
show sketch is more effective yet annotation-efficient than other references,
such as photo masks, language and scribble.
- Abstract(参考訳): 参照ベースのビデオオブジェクトセグメンテーションは、言語表現やフォトマスクなど、所定の参照によって参照されるビデオフレームごとに対応するターゲットオブジェクトをセグメンテーションすることを目的とした、新たなトピックである。
しかし、あるフレーム内の類似したオブジェクトが言語によって区別するのが困難である場合、言語表現は意図された概念を伝える際に曖昧になることがある。
一方、写真マスクは注釈を付けるのに費用がかかり、実際のアプリケーションでは実用的ではない。
本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。
私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。
我々は、半教師付きVOSタスクの一般的なベースラインであるSTCNを活用し、スケッチ参照を組み込む上で最も効果的な設計が何かを評価する。
実験の結果、スケッチは、写真マスク、言語、スクリブルといった他の参照よりも効果的だがアノテーション効率が高いことがわかった。
関連論文リスト
- Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation [0.9208007322096532]
スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。
既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ストローク間の時間的順序が失われる。
シーンスケッチセマンティックセマンティックセグメンテーションのためのCAVT(Class-Agnostic-Temporal Network)を提案する。
論文 参考訳(メタデータ) (2024-09-30T22:34:29Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - A Comprehensive Review of Modern Object Segmentation Approaches [1.7041248235270654]
画像セグメンテーション(英: Image segmentation)とは、画像中のピクセルをそれぞれのオブジェクトクラスラベルに関連付けるタスクである。
画像レベルのオブジェクト認識と画素レベルのシーン理解のためのディープラーニングベースのアプローチが開発されている。
イメージセグメンテーションタスクの拡張には、3Dとビデオセグメンテーションが含まれており、voxポイントクラウドのユニットとビデオフレームは異なるオブジェクトに分類される。
論文 参考訳(メタデータ) (2023-01-13T19:35:46Z) - Abstracting Sketches through Simple Primitives [53.04827416243121]
人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。
本稿では,プリミティブをベースとしたスケッチ抽象化タスクを提案する。
我々のPrimitive-Matching Network(PMN)は、スケッチの解釈可能な抽象化を自己管理的に学習する。
論文 参考訳(メタデータ) (2022-07-27T14:32:39Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。