論文の概要: Learning Segment Similarity and Alignment in Large-Scale Content Based
Video Retrieval
- arxiv url: http://arxiv.org/abs/2309.11091v1
- Date: Wed, 20 Sep 2023 06:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 17:16:05.183977
- Title: Learning Segment Similarity and Alignment in Large-Scale Content Based
Video Retrieval
- Title(参考訳): 大規模コンテンツベースビデオ検索における学習セグメントの類似性とアライメント
- Authors: Chen Jiang, Kaiming Huang, Sifeng He, Xudong Yang, Wei Zhang, Xiaobo
Zhang, Yuan Cheng, Lei Yang, Qing Wang, Furong Xu, Tan Pan, Wei Chu
- Abstract要約: Segment-level Content-Based Video Retrieval (S-CBVR) は、類似セグメントの開始時刻と終了時刻をより細かい粒度で特定する。
S-CBVRタスクの課題は、効率的な計算と低ストレージ消費で高時間アライメント精度を実現する方法である。
課題に対処するために,Segment similarity and Alignment Network (SSAN)を提案する。
- 参考スコア(独自算出の注目度): 33.668857070167434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosive growth of web videos in recent years, large-scale
Content-Based Video Retrieval (CBVR) becomes increasingly essential in video
filtering, recommendation, and copyright protection. Segment-level CBVR
(S-CBVR) locates the start and end time of similar segments in finer
granularity, which is beneficial for user browsing efficiency and infringement
detection especially in long video scenarios. The challenge of S-CBVR task is
how to achieve high temporal alignment accuracy with efficient computation and
low storage consumption. In this paper, we propose a Segment Similarity and
Alignment Network (SSAN) in dealing with the challenge which is firstly trained
end-to-end in S-CBVR. SSAN is based on two newly proposed modules in video
retrieval: (1) An efficient Self-supervised Keyframe Extraction (SKE) module to
reduce redundant frame features, (2) A robust Similarity Pattern Detection
(SPD) module for temporal alignment. In comparison with uniform frame
extraction, SKE not only saves feature storage and search time, but also
introduces comparable accuracy and limited extra computation time. In terms of
temporal alignment, SPD localizes similar segments with higher accuracy and
efficiency than existing deep learning methods. Furthermore, we jointly train
SSAN with SKE and SPD and achieve an end-to-end improvement. Meanwhile, the two
key modules SKE and SPD can also be effectively inserted into other video
retrieval pipelines and gain considerable performance improvements.
Experimental results on public datasets show that SSAN can obtain higher
alignment accuracy while saving storage and online query computational cost
compared to existing methods.
- Abstract(参考訳): 近年のWebビデオの爆発的な成長に伴い、ビデオフィルタリング、レコメンデーション、著作権保護において、CBVR(Content-Based Video Retrieval)がますます重要になっている。
セグメントレベルCBVR(S-CBVR)は、特に長いビデオシナリオにおいて、ユーザのブラウジング効率と侵害検出に有用である、より粒度の細かい類似セグメントの開始時刻と終了時刻を特定する。
S-CBVRタスクの課題は、効率的な計算と低ストレージ消費で高時間アライメント精度を実現する方法である。
本稿では,まず,S-CBVRでエンドツーエンドに学習した課題に対処するために,Segment similarity and Alignment Network (SSAN)を提案する。
ssanはビデオ検索において新たに提案された2つのモジュールに基づいている:(1)冗長なフレーム特徴を減らすための効率的な自己教師付きキーフレーム抽出(ske)モジュール、(2)時間的アライメントのためのロバスト類似性パターン検出(spd)モジュール。
均一なフレーム抽出と比較すると、SKEは特徴記憶時間と検索時間を節約するだけでなく、同等の精度と余分な計算時間も導入する。
時間的アライメントの観点では、SPDは既存のディープラーニング手法よりも高精度で効率の良い類似セグメントをローカライズする。
さらに,SSANをSKEとSPDと共同で訓練し,エンドツーエンドの改善を実現した。
一方、SKEとSPDの2つのキーモジュールは、他のビデオ検索パイプラインに効果的に挿入することができ、大幅な性能改善が可能である。
公開データセットを用いた実験結果から,SSANはストレージを節約しながらアライメント精度を向上し,既存の手法と比較してオンラインクエリ計算コストを低減できることがわかった。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Efficient Semantic Segmentation by Altering Resolutions for Compressed
Videos [42.944135041061166]
本稿では,効率的な映像分割を実現するために,圧縮ビデオのためのAR-Segと呼ばれる修正解像度フレームワークを提案する。
AR-Segは、非キーフレームに対して低解像度を使用することで、計算コストを削減することを目的としている。
CamVidとCityscapesの実験によると、AR-Segは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-13T15:58:15Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。