論文の概要: VRAG: Region Attention Graphs for Content-Based Video Retrieval
- arxiv url: http://arxiv.org/abs/2205.09068v1
- Date: Wed, 18 May 2022 16:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 14:08:23.011407
- Title: VRAG: Region Attention Graphs for Content-Based Video Retrieval
- Title(参考訳): VRAG:コンテンツベースのビデオ検索のためのリージョン注意グラフ
- Authors: Kennard Ng, Ser-Nam Lim, Gim Hee Lee
- Abstract要約: Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
- 参考スコア(独自算出の注目度): 85.54923500208041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-based Video Retrieval (CBVR) is used on media-sharing platforms for
applications such as video recommendation and filtering. To manage databases
that scale to billions of videos, video-level approaches that use fixed-size
embeddings are preferred due to their efficiency. In this paper, we introduce
Video Region Attention Graph Networks (VRAG) that improves the state-of-the-art
of video-level methods. We represent videos at a finer granularity via
region-level features and encode video spatio-temporal dynamics through
region-level relations. Our VRAG captures the relationships between regions
based on their semantic content via self-attention and the permutation
invariant aggregation of Graph Convolution. In addition, we show that the
performance gap between video-level and frame-level methods can be reduced by
segmenting videos into shots and using shot embeddings for video retrieval. We
evaluate our VRAG over several video retrieval tasks and achieve a new
state-of-the-art for video-level retrieval. Furthermore, our shot-level VRAG
shows higher retrieval precision than other existing video-level methods, and
closer performance to frame-level methods at faster evaluation speeds. Finally,
our code will be made publicly available.
- Abstract(参考訳): コンテンツベースのビデオ検索(CBVR)は、ビデオレコメンデーションやフィルタリングなどのアプリケーションのためのメディア共有プラットフォームで使用されている。
数十億ものビデオにスケールするデータベースを管理するには、その効率上、固定サイズの埋め込みを使用するビデオレベルのアプローチが望ましい。
本稿では,ビデオレベル手法の最先端技術を改善するビデオ領域アテンショングラフネットワーク(vrag)を提案する。
我々は、領域レベルの特徴を通してより細かい粒度でビデオを表現し、領域レベルの関係を通してビデオ時空間ダイナミクスを符号化する。
我々のVRAGは、自己意図とグラフ畳み込みの置換不変集約を通じて、意味的コンテンツに基づく領域間の関係をキャプチャする。
また,映像をショットに分割し,映像検索にショット埋め込みを使用することで,映像レベルの手法とフレームレベルの手法の性能差を低減できることを示す。
我々はVRAGを複数のビデオ検索タスクで評価し、ビデオレベルの検索のための新しい最先端技術を実現する。
さらに,ショットレベルのVRAGは,既存のビデオレベルの手法よりも高い検索精度を示し,フレームレベルの手法よりも高速な評価速度で性能が向上した。
最後に、私たちのコードは公開されます。
関連論文リスト
- EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - SB-VQA: A Stack-Based Video Quality Assessment Framework for Video
Enhancement [0.40777876591043155]
本稿では,ビデオ品質評価(VQA)のためのスタックベースのフレームワークを提案する。
拡張ビデオのためのVQAフレームワークの提案に加えて、プロが生成するコンテンツ(PGC)に対するVQAの適用についても検討する。
実験により,既存のVQAアルゴリズムをPGCビデオに適用できることが実証された。
論文 参考訳(メタデータ) (2023-05-15T07:44:10Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。