論文の概要: Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2208.12510v1
- Date: Fri, 26 Aug 2022 09:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:24:07.202013
- Title: Partially Relevant Video Retrieval
- Title(参考訳): 部分的関連映像検索
- Authors: Jianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, Shujie Chen,
Xirong Li, Xun Wang
- Abstract要約: PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
- 参考スコア(独自算出の注目度): 39.747235541498135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for text-to-video retrieval (T2VR) are trained and tested on
video-captioning oriented datasets such as MSVD, MSR-VTT and VATEX. A key
property of these datasets is that videos are assumed to be temporally
pre-trimmed with short duration, whilst the provided captions well describe the
gist of the video content. Consequently, for a given paired video and caption,
the video is supposed to be fully relevant to the caption. In reality, however,
as queries are not known a priori, pre-trimmed video clips may not contain
sufficient content to fully meet the query. This suggests a gap between the
literature and the real world. To fill the gap, we propose in this paper a
novel T2VR subtask termed Partially Relevant Video Retrieval (PRVR). An
untrimmed video is considered to be partially relevant w.r.t. a given textual
query if it contains a moment relevant to the query. PRVR aims to retrieve such
partially relevant videos from a large collection of untrimmed videos. PRVR
differs from single video moment retrieval and video corpus moment retrieval,
as the latter two are to retrieve moments rather than untrimmed videos. We
formulate PRVR as a multiple instance learning (MIL) problem, where a video is
simultaneously viewed as a bag of video clips and a bag of video frames. Clips
and frames represent video content at different time scales. We propose a
Multi-Scale Similarity Learning (MS-SL) network that jointly learns clip-scale
and frame-scale similarities for PRVR. Extensive experiments on three datasets
(TVR, ActivityNet Captions, and Charades-STA) demonstrate the viability of the
proposed method. We also show that our method can be used for improving video
corpus moment retrieval.
- Abstract(参考訳): 現在,MSVD,MSR-VTT,VATEXなどのビデオキャプション指向データセット上で,テキスト・ツー・ビデオ検索(T2VR)の訓練とテストが行われている。
これらのデータセットの重要な特性は、ビデオは短い期間で時間的に事前にトリミングされていると仮定され、字幕はビデオコンテンツの要点をうまく記述する。
したがって、与えられたペアのビデオとキャプションに対して、ビデオはキャプションに完全に関連しているはずである。
しかし、実際には、クエリがプリオリでないため、プリトリミングされたビデオクリップは、クエリを完全に満たすのに十分なコンテンツを含んでいない可能性がある。
これは、文学と現実世界の間のギャップを示唆する。
本稿では,このギャップを埋めるために,PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
未トリミングビデオは、クエリに関連するモーメントを含む場合、あるテキストクエリに部分的に関係していると考えられる。
prvrは、そのような部分的な関連のあるビデオを大量の未検索ビデオから回収することを目指している。
prvrは単一のビデオモーメントの検索とビデオコーパスのモーメントの検索とは異なっている。
我々は,prvrをマルチインスタンス学習(mil)問題として定式化し,ビデオクリップの袋とビデオフレームの袋を同時に見る。
クリップとフレームは、異なる時間スケールでビデオコンテンツを表す。
PRVRのクリップスケールとフレームスケールの類似性を共同で学習するマルチスケール類似学習(MS-SL)ネットワークを提案する。
3つのデータセット(TVR、ActivityNet Captions、Charades-STA)に対する大規模な実験は、提案手法の生存可能性を示している。
また,本手法はビデオコーパスモーメント検索の改善にも有効であることを示す。
関連論文リスト
- EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models [6.073813559982129]
ビデオ検索は、テキストキャプションまたはリバーサが与えられたビデオデータベースから、地上の真実のビデオを取得することを含む。
我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と構文的理解を評価する。
ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-28T20:06:36Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Semantic Video Moments Retrieval at Scale: A New Task and a Baseline [6.997674465889922]
Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。
これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T22:46:22Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。