論文の概要: Multi-query Video Retrieval
- arxiv url: http://arxiv.org/abs/2201.03639v1
- Date: Mon, 10 Jan 2022 20:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 21:10:31.501846
- Title: Multi-query Video Retrieval
- Title(参考訳): マルチクエリビデオ検索
- Authors: Zeyu Wang, Yu Wu, Karthik Narasimhan, Olga Russakovsky
- Abstract要約: 本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。
本稿では,複数のクエリの類似性出力を単純に組み合わせることで,複数のクエリをトレーニング時に活用する新しい手法を提案する。
我々は、さらなるモデリング努力により、この方向性に新たな洞察をもたらし、現実世界のビデオ検索アプリケーションでより良いパフォーマンスを発揮する新しいシステムを創り出すと信じている。
- 参考スコア(独自算出の注目度): 44.32936301162444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving target videos based on text descriptions is a task of great
practical value and has received increasing attention over the past few years.
In this paper, we focus on the less-studied setting of multi-query video
retrieval, where multiple queries are provided to the model for searching over
the video archive. We first show that the multi-query retrieval task is more
pragmatic and representative of real-world use cases and better evaluates
retrieval capabilities of current models, thereby deserving of further
investigation alongside the more prevalent single-query retrieval setup. We
then propose several new methods for leveraging multiple queries at training
time to improve over simply combining similarity outputs of multiple queries
from regular single-query trained models. Our models consistently outperform
several competitive baselines over three different datasets. For instance,
Recall@1 can be improved by 4.7 points on MSR-VTT, 4.1 points on MSVD and 11.7
points on VATEX over a strong baseline built on the state-of-the-art CLIP4Clip
model. We believe further modeling efforts will bring new insights to this
direction and spark new systems that perform better in real-world video
retrieval applications. Code is available at
https://github.com/princetonvisualai/MQVR.
- Abstract(参考訳): テキスト記述に基づくターゲットビデオの検索は非常に実用的な作業であり、ここ数年で注目を集めている。
本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。
まず,マルチクエリ検索タスクは実世界のユースケースをより現実的に表現し,現在のモデルの検索能力をよりよく評価し,より一般的な単一クエリ検索設定とともにさらなる調査を継続することを示す。
次に、トレーニング時に複数のクエリを活用する新しい手法を提案し、通常の単一クエリ訓練モデルからの複数のクエリの類似度出力を単純に組み合わせて改善する。
私たちのモデルは、3つの異なるデータセットよりも競争力のあるベースラインを一貫して上回ります。
例えば、Recall@1はMSR-VTTで4.7ポイント、MSVDで4.1ポイント、VATEXで11.7ポイント改善できる。
さらなるモデリングの取り組みは、この方向性に新たな洞察をもたらし、実世界のビデオ検索アプリケーションでより良い性能を発揮する新しいシステムを引き起こすと信じています。
コードはhttps://github.com/princetonvisualai/MQVRで入手できる。
関連論文リスト
- T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval [30.48217069475297]
本稿では,ビデオ識別子を直接生成するシーケンス・ツー・シーケンス生成モデルであるT2VIndexerというモデルに基づくビデオインデクサを提案する。
T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
論文 参考訳(メタデータ) (2024-08-21T08:40:45Z) - Many-Shot In-Context Learning in Multimodal Foundation Models [4.772535803521769]
大規模言語モデルはテキスト内学習(ICL)において効果的である
マルチモーダル基礎モデルの最近の進歩は、前例のない長いコンテキストウインドウを可能にしている。
GPT-4oとGemini 1.5 Proを、複数のドメインにまたがる14のデータセットでベンチマークします。
論文 参考訳(メタデータ) (2024-05-16T04:02:43Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。