論文の概要: VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression
- arxiv url: http://arxiv.org/abs/2303.08906v1
- Date: Wed, 15 Mar 2023 20:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:57:32.599285
- Title: VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression
- Title(参考訳): VVS:無関係フレーム抑圧によるビデオ間検索
- Authors: Won Jo, Geuntaek Lim, Gwangjin Lee, Hyunwoo Kim, Byungsoo Ko, and
Yukyung Choi
- Abstract要約: ビデオレベルの特徴ベースアプローチの現在の障害を克服するための手がかりとして,無関係なフレームの適切な抑制が期待できることを示す。
本稿では,VVS(Video-to-Video Suppression Network)をソリューションとして提案する。
- 参考スコア(独自算出の注目度): 15.5188037730481
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In content-based video retrieval (CBVR), dealing with large-scale
collections, efficiency is as important as accuracy. For this reason, several
video-level feature-based studies have actively been conducted; nevertheless,
owing to the severe difficulty of embedding a lengthy and untrimmed video into
a single feature, these studies have shown insufficient for accurate retrieval
compared to frame-level feature-based studies. In this paper, we show an
insight that appropriate suppression of irrelevant frames can be a clue to
overcome the current obstacles of the video-level feature-based approaches.
Furthermore, we propose a Video-to-Video Suppression network (VVS) as a
solution. The VVS is an end-to-end framework that consists of an easy
distractor elimination stage for identifying which frames to remove and a
suppression weight generation stage for determining how much to suppress the
remaining frames. This structure is intended to effectively describe an
untrimmed video with varying content and meaningless information. Its efficacy
is proved via extensive experiments, and we show that our approach is not only
state-of-the-art in video-level feature-based approaches but also has a fast
inference time despite possessing retrieval capabilities close to those of
frame-level feature-based approaches.
- Abstract(参考訳): コンテンツベースビデオ検索(CBVR)では,大規模コレクションを扱う場合,効率は精度と同じくらい重要である。
このため、いくつかの映像レベルの特徴に基づく研究が活発に行われているが、長大で難解な映像を1つの特徴に埋め込むのが難しいため、フレームレベルの特徴に基づく研究に比べて正確な検索には不十分であることが示されている。
本稿では,無関係フレームの適切な抑制が,映像レベルの特徴ベースアプローチの現在の障害を克服するための手がかりとなることを示す。
さらに,VVS(Video-to-Video Suppression Network)をソリューションとして提案する。
VVSは、どのフレームを削除すべきかを識別するための簡単なイントラクタ除去段階と、残りのフレームをどの程度抑制するかを決定するための抑制重量生成段階とからなるエンドツーエンドのフレームワークである。
この構造は、様々なコンテンツと意味のない情報を持つ未トリミングな動画を効果的に記述することを目的としている。
提案手法はビデオレベルの特徴ベースアプローチにおける最先端の手法であるだけでなく,フレームレベルの特徴ベースアプローチに近い検索能力を有するにもかかわらず,高速な推論時間を有することを示す。
関連論文リスト
- Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics [2.5119455331413376]
検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。
本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:05:57Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - Self-supervised Video Retrieval Transformer Network [10.456881328982586]
SVRTNは,ラベルのないデータから映像表現を学習するための自己教師あり学習法である。
トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。
クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。
論文 参考訳(メタデータ) (2021-04-16T09:43:45Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - A Sparse Sampling-based framework for Semantic Fast-Forward of
First-Person Videos [2.362412515574206]
ほとんどのアップロードされたビデオは忘れられ、コンピューターのフォルダーやウェブサイトに埋もれてしまった。
重み付き最小再構成問題として定式化された適応フレーム選択を提案する。
本手法は,最先端技術と同等の関連情報とスムーズさを保持することができるが,処理時間が少ない。
論文 参考訳(メタデータ) (2020-09-21T18:36:17Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。