論文の概要: Self-supervised Video Retrieval Transformer Network
- arxiv url: http://arxiv.org/abs/2104.07993v1
- Date: Fri, 16 Apr 2021 09:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:21:43.615555
- Title: Self-supervised Video Retrieval Transformer Network
- Title(参考訳): 自己教師付きビデオ検索トランスネットワーク
- Authors: Xiangteng He, Yulin Pan, Mingqian Tang and Yiliang Lv
- Abstract要約: SVRTNは,ラベルのないデータから映像表現を学習するための自己教師あり学習法である。
トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。
クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。
- 参考スコア(独自算出の注目度): 10.456881328982586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-based video retrieval aims to find videos from a large video database
that are similar to or even near-duplicate of a given query video. Video
representation and similarity search algorithms are crucial to any video
retrieval system. To derive effective video representation, most video
retrieval systems require a large amount of manually annotated data for
training, making it costly inefficient. In addition, most retrieval systems are
based on frame-level features for video similarity searching, making it
expensive both storage wise and search wise. We propose a novel video retrieval
system, termed SVRTN, that effectively addresses the above shortcomings. It
first applies self-supervised training to effectively learn video
representation from unlabeled data to avoid the expensive cost of manual
annotation. Then, it exploits transformer structure to aggregate frame-level
features into clip-level to reduce both storage space and search complexity. It
can learn the complementary and discriminative information from the
interactions among clip frames, as well as acquire the frame permutation and
missing invariant ability to support more flexible retrieval manners.
Comprehensive experiments on two challenging video retrieval datasets, namely
FIVR-200K and SVD, verify the effectiveness of our proposed SVRTN method, which
achieves the best performance of video retrieval on accuracy and efficiency.
- Abstract(参考訳): コンテンツベースのビデオ検索は、あるクエリービデオに類似したり、あるいはほぼ重複している大きなビデオデータベースからの動画を見つけることを目的としている。
ビデオ検索システムでは,映像表現と類似性検索アルゴリズムが重要である。
効果的な映像表現を導出するためには、ほとんどのビデオ検索システムは、トレーニングのために大量の手動の注釈付きデータを必要とするため、コストがかかる。
さらに、ほとんどの検索システムは、ビデオ類似性検索のためのフレームレベル機能に基づいており、ストレージと検索の両面で高価である。
本稿では,上述の欠点を効果的に解決する新しいビデオ検索システムSVRTNを提案する。
まず、自己教師付きトレーニングを適用して、ラベルのないデータからビデオ表現を効果的に学習し、手動アノテーションのコストのかかるコストを回避する。
そして、トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。
クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。
FIVR-200K と SVD という2つの難解なビデオ検索データセットに関する総合実験を行い,提案手法の有効性を検証した。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression [12.793922882841137]
不適切なフレームの適切な抑制は、ビデオレベルのアプローチの現在の障害についての洞察を与えることができる。
本稿では,VVS(Video-to-Video Suppression Network)をソリューションとして提案する。
VVSは、どのフレームを削除すべきかを識別するための、容易に散逸する段階と、残りのフレームを抑圧する範囲を決定するための抑制重み生成段階から構成されるエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2023-03-15T20:02:54Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。