論文の概要: T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2408.11432v1
- Date: Wed, 21 Aug 2024 08:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:49:48.129309
- Title: T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval
- Title(参考訳): T2VIndexer: 効率的なテキスト-ビデオ検索のための生成ビデオインデクサ
- Authors: Yili Li, Jing Yu, Keke Gai, Bang Liu, Gang Xiong, Qi Wu,
- Abstract要約: 本稿では,ビデオ識別子を直接生成するシーケンス・ツー・シーケンス生成モデルであるT2VIndexerというモデルに基づくビデオインデクサを提案する。
T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
- 参考スコア(独自算出の注目度): 30.48217069475297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-video retrieval methods mainly rely on cross-modal matching between queries and videos to calculate their similarity scores, which are then sorted to obtain retrieval results. This method considers the matching between each candidate video and the query, but it incurs a significant time cost and will increase notably with the increase of candidates. Generative models are common in natural language processing and computer vision, and have been successfully applied in document retrieval, but their application in multimodal retrieval remains unexplored. To enhance retrieval efficiency, in this paper, we introduce a model-based video indexer named T2VIndexer, which is a sequence-to-sequence generative model directly generating video identifiers and retrieving candidate videos with constant time complexity. T2VIndexer aims to reduce retrieval time while maintaining high accuracy. To achieve this goal, we propose video identifier encoding and query-identifier augmentation approaches to represent videos as short sequences while preserving their semantic information. Our method consistently enhances the retrieval efficiency of current state-of-the-art models on four standard datasets. It enables baselines with only 30\%-50\% of the original retrieval time to achieve better retrieval performance on MSR-VTT (+1.0%), MSVD (+1.8%), ActivityNet (+1.5%), and DiDeMo (+0.2%). The code is available at https://github.com/Lilidamowang/T2VIndexer-generativeSearch.
- Abstract(参考訳): 現在のテキストビデオ検索法は、主にクエリとビデオ間のクロスモーダルマッチングを利用して類似度スコアを計算し、その結果をソートする。
本手法では,各候補ビデオとクエリのマッチングについて検討するが,時間的コストが大きく,特に候補の増加に伴って増加する。
生成モデルは自然言語処理やコンピュータビジョンで一般的であり、文書検索にうまく応用されているが、マルチモーダル検索への応用はいまだ探索されていない。
本稿では,検索効率を向上させるために,連続列列生成モデルであるT2VIndexerというモデルベースビデオインデクサを提案する。
T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
この目的を達成するために,映像を短いシーケンスとして表現し,セマンティック情報を保存するために,ビデオ識別子エンコーディングとクエリ識別子拡張手法を提案する。
提案手法は,4つの標準データセット上での現在の最先端モデルの検索効率を一貫して向上させる。
MSR-VTT(+1.0%)、MSVD(+1.8%)、ActivityNet(+1.5%)、DiDeMo(+0.2%)の検索性能を向上させるために、元の検索時間の30\%~50\%のベースラインを可能にする。
コードはhttps://github.com/Lilidamowang/T2VIndexer-generativeSearchで公開されている。
関連論文リスト
- GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Multi-query Video Retrieval [44.32936301162444]
本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。
本稿では,複数のクエリの類似性出力を単純に組み合わせることで,複数のクエリをトレーニング時に活用する新しい手法を提案する。
我々は、さらなるモデリング努力により、この方向性に新たな洞察をもたらし、現実世界のビデオ検索アプリケーションでより良いパフォーマンスを発揮する新しいシステムを創り出すと信じている。
論文 参考訳(メタデータ) (2022-01-10T20:44:46Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream
Retrieval [12.17757623963458]
本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。
本稿では、現在再生されているビデオの、目に見えない未来のコンテンツを推測する最初のハッシュフレームワークを提案する。
また本手法では,本手法の文献に適合したベースラインと比較して,mAP@20の性能が著しく向上する。
論文 参考訳(メタデータ) (2020-09-30T13:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。