論文の概要: Sketch-based Video Object Localization
- arxiv url: http://arxiv.org/abs/2304.00450v1
- Date: Sun, 2 Apr 2023 05:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:56:49.638375
- Title: Sketch-based Video Object Localization
- Title(参考訳): スケッチに基づく映像オブジェクトの定位
- Authors: Sangmin Woo, So-Yeong Jeon, Jinyoung Park, Minji Son, Sumin Lee,
Changick Kim
- Abstract要約: 我々はSketch-Video Attention Network (SVANet)を構築し、スケッチとビデオの間の領域ギャップを埋める。
SVANetは、スケッチとビデオオブジェクトのマッピングをうまく学習し、SVOLベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 22.097845000660065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Sketch-based Video Object Localization (SVOL), a new task aimed
at localizing spatio-temporal object boxes in video queried by the input
sketch. We first outline the challenges in the SVOL task and build the
Sketch-Video Attention Network (SVANet) with the following design principles:
(i) to consider temporal information of video and bridge the domain gap between
sketch and video; (ii) to accurately identify and localize multiple objects
simultaneously; (iii) to handle various styles of sketches; (iv) to be
classification-free. In particular, SVANet is equipped with a Cross-modal
Transformer that models the interaction between learnable object tokens, query
sketch, and video through attention operations, and learns upon a per-frame set
macthing strategy that enables frame-wise prediction while utilizing global
video context. We evaluate SVANet on a newly curated SVOL dataset. By design,
SVANet successfully learns the mapping between the query sketch and video
objects, achieving state-of-the-art results on the SVOL benchmark. We further
confirm the effectiveness of SVANet via extensive ablation studies and
visualizations. Lastly, we demonstrate its zero-shot capability on unseen
datasets and novel categories, suggesting its high scalability in real-world
applications.
- Abstract(参考訳): 入力スケッチで検索した映像に時空間オブジェクトボックスをローカライズすることを目的とした新しいタスクであるsketch-based video object localization (svol)を提案する。
まず、SVOLタスクの課題の概要を説明し、以下の設計原則でSketch-Video Attention Network(SVANet)を構築します。
(i)映像の時間的情報を考慮して,スケッチと映像のドメイン間ギャップを埋めること。
(ii)複数のオブジェクトを同時に正確に識別し、ローカライズすること
(iii)様々な様式のスケッチを扱うこと。
(4)非分類である。
特に、SVANetは、学習可能なオブジェクトトークン、クエリスケッチ、アテンション操作によるビデオ間のインタラクションをモデル化するクロスモーダルトランスフォーマーを備えており、グローバルなビデオコンテキストを利用しながらフレーム単位の予測を可能にするフレーム単位のマクロ化戦略を学習する。
新たにキュレートされたSVOLデータセット上でSVANetを評価する。
SVANetは、クエリスケッチとビデオオブジェクトのマッピングをうまく学習し、SVOLベンチマークで最先端の結果を得る。
さらに、広範囲なアブレーション研究と可視化を通してSVANetの有効性を確認する。
最後に,未知のデータセットと新たなカテゴリに対してゼロショット機能を実証し,実世界のアプリケーションで高いスケーラビリティを示唆する。
関連論文リスト
- Sketch Video Synthesis [52.134906766625164]
フレームワイドB'ezier曲線で表現されたビデオのスケッチを行うための新しいフレームワークを提案する。
本手法は、スケッチベースのビデオ編集やビデオ合成によるビデオ再生における応用を解放する。
論文 参考訳(メタデータ) (2023-11-26T14:14:04Z) - Sketch-based Video Object Segmentation: Benchmark and Analysis [55.79497833614397]
本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。
私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。
実験の結果、スケッチは、フォトマスク、言語、スクリブルなど、他の参照よりも効果的であるが、アノテーション効率が高いことが示された。
論文 参考訳(メタデータ) (2023-11-13T11:53:49Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z) - Learning spatio-temporal representations with temporal squeeze pooling [11.746833714322154]
本研究では,ビデオフレームの長いシーケンスから本質的な動き情報を抽出し,それをSqueezed Imagesという名の少数の画像にマッピングする,テンポラル・スキーズ(TS)プーリングという新しいビデオ表現学習手法を提案する。
得られたSqueezed Imagesは、ビデオ分類タスクの最適化に対応して、ビデオフレームから必須の移動情報を含む。
2つのビデオ分類ベンチマークでアーキテクチャを評価し,その結果を最新技術と比較した。
論文 参考訳(メタデータ) (2020-02-11T21:13:12Z) - SketchDesc: Learning Local Sketch Descriptors for Multi-view
Correspondence [68.63311821718416]
我々はマルチビュースケッチ対応の問題について検討し、同じオブジェクトの異なるビューを持つ複数のフリーハンドスケッチを入力として扱う。
異なる視点における対応する点の視覚的特徴は、非常に異なる可能性があるため、この問題は困難である。
我々は、深層学習アプローチを採用し、データから新しいローカルスケッチ記述子を学習する。
論文 参考訳(メタデータ) (2020-01-16T11:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。