論文の概要: PRVR: Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2208.12510v2
- Date: Thu, 09 Oct 2025 01:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.414297
- Title: PRVR: Partially Relevant Video Retrieval
- Title(参考訳): PRVR:一部関連ビデオ検索
- Authors: Xianke Chen, Daizong Liu, Xun Yang, Xirong Li, Jianfeng Dong, Meng Wang, Xun Wang,
- Abstract要約: 現在のテキスト・ツー・ビデオ検索(T2VR)では、ビデオとアドホックなテキストクエリの対応が自然に存在するように、検索対象の動画を適切にトリミングしている。
本稿では,PRVR(Partially Relevant Video Retrieval)と呼ぶこの設定に関する最初の研究について述べる。
PRVRタスクを複数インスタンス学習問題として定式化し、クリップスケールとフレームスケールの両方の類似性を共同で学習するマルチスケール類似学習(MS-SL++)ネットワークを提案する。
- 参考スコア(独自算出の注目度): 55.41367664146273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In current text-to-video retrieval (T2VR), videos to be retrieved have been properly trimmed so that a correspondence between the videos and ad-hoc textual queries naturally exists. Note in practice that videos circulated on the Internet and social media platforms, while being relatively short, are typically rich in their content. Often, multiple scenes / actions / events are shown in a single video, leading to a more challenging T2VR setting wherein only part of the video content is relevant w.r.t. a given query. This paper presents a first study on this setting which we term Partially Relevant Video Retrieval (PRVR). Considering that a video typically consists of multiple moments, a video is regarded as partially relevant w.r.t. to a given query if it contains a query-related moment. We formulate the PRVR task as a multiple instance learning problem, and propose a Multi-Scale Similarity Learning (MS-SL++) network that jointly learns both clip-scale and frame-scale similarities to determine the partial relevance between video-query pairs. Extensive experiments on three diverse video-text datasets (TVshow Retrieval, ActivityNet-Captions and Charades-STA) demonstrate the viability of the proposed method.
- Abstract(参考訳): 現在のテキスト・ツー・ビデオ検索(T2VR)では、ビデオとアドホックなテキストクエリの対応が自然に存在するように、検索対象の動画を適切にトリミングしている。
実際には、ビデオはインターネットやソーシャルメディアのプラットフォームで流されているが、比較的短いが、一般的にはコンテンツに富んでいる。
多くの場合、複数のシーン/アクション/イベントが単一のビデオに表示されるため、ビデオコンテンツの一部だけが特定のクエリに関連付けられているような、より困難なT2VR設定に繋がる。
本稿では,この設定をPRVR(Partially Relevant Video Retrieval)と呼ぶ。
ビデオは典型的に複数のモーメントから構成されるので、あるクェリにクエリ関連モーメントが含まれている場合、ビデオは部分的に関係のあるw.r.t.と見なされる。
PRVRタスクを複数インスタンス学習問題として定式化し、クリップスケールとフレームスケールの両方の類似性を共同で学習し、ビデオクエリペア間の部分的関連性を決定するマルチスケール類似学習(MS-SL++)ネットワークを提案する。
3つの多様なビデオテキストデータセット(TVshow Retrieval, ActivityNet-Captions, Charades-STA)の大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models [6.073813559982129]
ビデオ検索は、テキストキャプションまたはリバーサが与えられたビデオデータベースから、地上の真実のビデオを取得することを含む。
我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と構文的理解を評価する。
ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-28T20:06:36Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Semantic Video Moments Retrieval at Scale: A New Task and a Baseline [6.997674465889922]
Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。
これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T22:46:22Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。