論文の概要: An Empirical Study of Frame Selection for Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2311.00298v1
- Date: Wed, 1 Nov 2023 05:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:44:24.716660
- Title: An Empirical Study of Frame Selection for Text-to-Video Retrieval
- Title(参考訳): テキスト・ビデオ検索のためのフレーム選択に関する実証的研究
- Authors: Mengxia Wu, Min Cao, Yang Bai, Ziyin Zeng, Chen Chen, Liqiang Nie, Min
Zhang
- Abstract要約: テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。
既存の方法は通常、TVRのビデオコンテンツを表すためにビデオ内のフレームのサブセットを選択する。
本稿では,TVRにおけるフレーム選択の実証的研究を行う。
- 参考スコア(独自算出の注目度): 62.28080029331507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video retrieval (TVR) aims to find the most relevant video in a large
video gallery given a query text. The intricate and abundant context of the
video challenges the performance and efficiency of TVR. To handle the
serialized video contexts, existing methods typically select a subset of frames
within a video to represent the video content for TVR. How to select the most
representative frames is a crucial issue, whereby the selected frames are
required to not only retain the semantic information of the video but also
promote retrieval efficiency by excluding temporally redundant frames. In this
paper, we make the first empirical study of frame selection for TVR. We
systemically classify existing frame selection methods into text-free and
text-guided ones, under which we detailedly analyze six different frame
selections in terms of effectiveness and efficiency. Among them, two frame
selections are first developed in this paper. According to the comprehensive
analysis on multiple TVR benchmarks, we empirically conclude that the TVR with
proper frame selections can significantly improve the retrieval efficiency
without sacrificing the retrieval performance.
- Abstract(参考訳): テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。
ビデオの複雑で豊富なコンテキストは、TVRの性能と効率に挑戦する。
シリアライズされたビデオコンテキストを扱うために、既存の方法は典型的にビデオ内のフレームのサブセットを選択し、TVRのビデオコンテンツを表す。
選択したフレームは,映像の意味情報を保持するだけでなく,時間的に冗長なフレームを除外して検索効率を向上させる必要がある。
本稿では,TVRにおけるフレーム選択の実証的研究を行う。
本研究では,既存のフレーム選択手法をテキストフリーとテキスト誘導に分類し,有効性と効率の観点から6種類のフレーム選択を詳細に解析する。
本論文では,まず2つのフレーム選択について述べる。
複数のTVRベンチマークの総合的な分析から、適切なフレーム選択を行うTVRは、検索性能を犠牲にすることなく、検索効率を大幅に向上させることができると実証的に結論付けている。
関連論文リスト
- An Empirical Comparison of Video Frame Sampling Methods for Multi-Modal RAG Retrieval [1.6581184950812533]
自然言語質問を用いたビデオ・フレーム検索におけるフレームサンプリング手法のトレードオフについて検討する。
本稿では,ビデオRAGパターンが必要とするベクトルデータベース内の画像データ(ビデオフレーム)の保存と検索に焦点を当てた。
論文 参考訳(メタデータ) (2024-07-22T11:44:08Z) - End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.024232182899354]
そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T04:09:37Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Fine-grained Text-Video Retrieval with Frozen Image Encoders [10.757101644990273]
2段階のテキストビデオ検索アーキテクチャであるCrossTVRを提案する。
第1段階では,既存のTVR手法とコサイン類似性ネットワークを利用して,効率的なテキスト/ビデオ候補選択を行う。
第2段階では,空間次元と時間次元の細粒度マルチモーダル情報をキャプチャするビデオテキストクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-14T02:57:00Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - SMART Frame Selection for Action Recognition [43.796505626453836]
良いフレームを選択することは、トリミングされたビデオ領域でもアクション認識のパフォーマンスに役立ちます。
本稿では,フレームの選択を一度に行うのではなく,共同で検討する手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T12:24:00Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。