論文の概要: VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression
- arxiv url: http://arxiv.org/abs/2303.08906v1
- Date: Wed, 15 Mar 2023 20:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:57:32.599285
- Title: VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression
- Title(参考訳): VVS:無関係フレーム抑圧によるビデオ間検索
- Authors: Won Jo, Geuntaek Lim, Gwangjin Lee, Hyunwoo Kim, Byungsoo Ko, and
Yukyung Choi
- Abstract要約: ビデオレベルの特徴ベースアプローチの現在の障害を克服するための手がかりとして,無関係なフレームの適切な抑制が期待できることを示す。
本稿では,VVS(Video-to-Video Suppression Network)をソリューションとして提案する。
- 参考スコア(独自算出の注目度): 15.5188037730481
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In content-based video retrieval (CBVR), dealing with large-scale
collections, efficiency is as important as accuracy. For this reason, several
video-level feature-based studies have actively been conducted; nevertheless,
owing to the severe difficulty of embedding a lengthy and untrimmed video into
a single feature, these studies have shown insufficient for accurate retrieval
compared to frame-level feature-based studies. In this paper, we show an
insight that appropriate suppression of irrelevant frames can be a clue to
overcome the current obstacles of the video-level feature-based approaches.
Furthermore, we propose a Video-to-Video Suppression network (VVS) as a
solution. The VVS is an end-to-end framework that consists of an easy
distractor elimination stage for identifying which frames to remove and a
suppression weight generation stage for determining how much to suppress the
remaining frames. This structure is intended to effectively describe an
untrimmed video with varying content and meaningless information. Its efficacy
is proved via extensive experiments, and we show that our approach is not only
state-of-the-art in video-level feature-based approaches but also has a fast
inference time despite possessing retrieval capabilities close to those of
frame-level feature-based approaches.
- Abstract(参考訳): コンテンツベースビデオ検索(CBVR)では,大規模コレクションを扱う場合,効率は精度と同じくらい重要である。
このため、いくつかの映像レベルの特徴に基づく研究が活発に行われているが、長大で難解な映像を1つの特徴に埋め込むのが難しいため、フレームレベルの特徴に基づく研究に比べて正確な検索には不十分であることが示されている。
本稿では,無関係フレームの適切な抑制が,映像レベルの特徴ベースアプローチの現在の障害を克服するための手がかりとなることを示す。
さらに,VVS(Video-to-Video Suppression Network)をソリューションとして提案する。
VVSは、どのフレームを削除すべきかを識別するための簡単なイントラクタ除去段階と、残りのフレームをどの程度抑制するかを決定するための抑制重量生成段階とからなるエンドツーエンドのフレームワークである。
この構造は、様々なコンテンツと意味のない情報を持つ未トリミングな動画を効果的に記述することを目的としている。
提案手法はビデオレベルの特徴ベースアプローチにおける最先端の手法であるだけでなく,フレームレベルの特徴ベースアプローチに近い検索能力を有するにもかかわらず,高速な推論時間を有することを示す。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。
これらの制限を突破するために、新しいVADパラダイムを導入します。
本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:13:19Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - Self-supervised Video Retrieval Transformer Network [10.456881328982586]
SVRTNは,ラベルのないデータから映像表現を学習するための自己教師あり学習法である。
トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。
クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。
論文 参考訳(メタデータ) (2021-04-16T09:43:45Z) - A Sparse Sampling-based framework for Semantic Fast-Forward of
First-Person Videos [2.362412515574206]
ほとんどのアップロードされたビデオは忘れられ、コンピューターのフォルダーやウェブサイトに埋もれてしまった。
重み付き最小再構成問題として定式化された適応フレーム選択を提案する。
本手法は,最先端技術と同等の関連情報とスムーズさを保持することができるが,処理時間が少ない。
論文 参考訳(メタデータ) (2020-09-21T18:36:17Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。