論文の概要: Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review
- arxiv url: http://arxiv.org/abs/2505.23952v1
- Date: Thu, 29 May 2025 19:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.636891
- Title: Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review
- Title(参考訳): テキストからビデオへの検索における補助情報の利用
- Authors: Adriano Fragomeni, Dima Damen, Michael Wray,
- Abstract要約: Text-to-Video(T2V)検索は、ユーザのテキストクエリに基づいて、ビデオギャラリーから最も関連性の高いアイテムを特定することを目的としている。
従来の手法は、類似度を計算し、関連する項目を検索するために、ビデオとテキストのモダリティの整合にのみ依存していた。
最近の進歩は、検索性能を向上させるために、ビデオとテキストのモダリティから抽出した補助情報を含んでいる。
- 参考スコア(独自算出の注目度): 24.764393859378544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Video (T2V) retrieval aims to identify the most relevant item from a gallery of videos based on a user's text query. Traditional methods rely solely on aligning video and text modalities to compute the similarity and retrieve relevant items. However, recent advancements emphasise incorporating auxiliary information extracted from video and text modalities to improve retrieval performance and bridge the semantic gap between these modalities. Auxiliary information can include visual attributes, such as objects; temporal and spatial context; and textual descriptions, such as speech and rephrased captions. This survey comprehensively reviews 81 research papers on Text-to-Video retrieval that utilise such auxiliary information. It provides a detailed analysis of their methodologies; highlights state-of-the-art results on benchmark datasets; and discusses available datasets and their auxiliary information. Additionally, it proposes promising directions for future research, focusing on different ways to further enhance retrieval performance using this information.
- Abstract(参考訳): Text-to-Video(T2V)検索は、ユーザのテキストクエリに基づいて、ビデオギャラリーから最も関連性の高いアイテムを特定することを目的としている。
従来の手法は、類似度を計算し、関連する項目を検索するために、ビデオとテキストのモダリティの整合にのみ依存していた。
しかし、近年の進歩は、ビデオとテキストのモダリティから抽出した補助情報を組み込んで、検索性能を改善し、これらのモダリティ間の意味的ギャップを埋めることに重点を置いている。
補助情報は、オブジェクトのような視覚的属性、時間的・空間的コンテキスト、音声や言い換えキャプションのようなテキスト記述を含むことができる。
本調査は,このような補助情報を活用したテキスト・ビデオ検索に関する81の論文を総合的にレビューする。
それらの方法論を詳細に分析し、ベンチマークデータセットで最先端の結果を強調し、利用可能なデータセットとその補助情報について議論する。
さらに,この情報を用いて検索性能をさらに向上する様々な方法に着目し,今後の研究に向けた有望な方向性を提案する。
関連論文リスト
- VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。