論文の概要: Fine-Grained Instance-Level Sketch-Based Video Retrieval
- arxiv url: http://arxiv.org/abs/2002.09461v1
- Date: Fri, 21 Feb 2020 18:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 01:46:48.456679
- Title: Fine-Grained Instance-Level Sketch-Based Video Retrieval
- Title(参考訳): きめ細かいインスタンスレベルのスケッチに基づくビデオ検索
- Authors: Peng Xu, Kun Liu, Tao Xiang, Timothy M. Hospedales, Zhanyu Ma, Jun
Guo, Yi-Zhe Song
- Abstract要約: 細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 159.12935292432743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing sketch-analysis work studies sketches depicting static objects or
scenes. In this work, we propose a novel cross-modal retrieval problem of
fine-grained instance-level sketch-based video retrieval (FG-SBVR), where a
sketch sequence is used as a query to retrieve a specific target video
instance. Compared with sketch-based still image retrieval, and coarse-grained
category-level video retrieval, this is more challenging as both visual
appearance and motion need to be simultaneously matched at a fine-grained
level. We contribute the first FG-SBVR dataset with rich annotations. We then
introduce a novel multi-stream multi-modality deep network to perform FG-SBVR
under both strong and weakly supervised settings. The key component of the
network is a relation module, designed to prevent model over-fitting given
scarce training data. We show that this model significantly outperforms a
number of existing state-of-the-art models designed for video analysis.
- Abstract(参考訳): 既存のスケッチ分析作業は、静的な物体やシーンを描いたスケッチを研究している。
本研究では,特定の対象ビデオインスタンスを検索するためのクエリとしてスケッチシーケンスを使用する,きめ細かなインスタンスレベルスケッチベースビデオ検索(fg-sbvr)のクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
リッチアノテーションを用いた最初のFG-SBVRデータセットをコントリビュートする。
次に,FG-SBVRを実現するためのマルチストリーム多モードディープネットワークを提案する。
ネットワークの重要なコンポーネントはリレーショナルモジュールであり、不足するトレーニングデータに対するモデル過適合を防止するように設計されている。
このモデルは,映像解析用に設計された既存の最先端モデルよりも優れていることを示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Sketch-based Video Object Localization [18.75339976049454]
我々はSketch-Video Attention Network (SVANet)を構築し、スケッチとビデオの間の領域ギャップを埋める。
SVANetは、学習可能なオブジェクトトークン、クエリスケッチ、ビデオ間のインタラクションをモデル化するクロスモーダルトランスフォーマーを備えている。
SVANetは、クエリスケッチとビデオオブジェクトのマッピングをうまく学習し、SVOLベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-04-02T05:05:58Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。