論文の概要: Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
- arxiv url: http://arxiv.org/abs/2301.00184v1
- Date: Sat, 31 Dec 2022 11:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:13:17.237366
- Title: Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
- Title(参考訳): cap4video:テキスト・ビデオ検索に補助キャプションは何ができるのか?
- Authors: Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
- Abstract要約: 本稿では,3つの側面のキャプションを利用する新しいフレームワークCap4Videoを提案する。
本手法の有効性を実証するために, 徹底的なアブレーション研究を行っている。
- 参考スコア(独自算出の注目度): 131.300931102986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing text-video retrieval methods focus on cross-modal matching
between the visual content of offline videos and textual query sentences.
However, in real scenarios, online videos are frequently accompanied by
relevant text information such as titles, tags, and even subtitles, which can
be utilized to match textual queries. This inspires us to generate associated
captions from offline videos to help with existing text-video retrieval
methods. To do so, we propose to use the zero-shot video captioner with
knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate
captions for offline videos without any training. Given the captions, one
question naturally arises: what can auxiliary captions do for text-video
retrieval? In this paper, we present a novel framework Cap4Video, which makes
use of captions from three aspects: i) Input data: The video and captions can
form new video-caption pairs as data augmentation for training. ii) Feature
interaction: We perform feature interaction between video and caption to yield
enhanced video representations. iii) Output score: The Query-Caption matching
branch can be complementary to the original Query-Video matching branch for
text-video retrieval. We conduct thorough ablation studies to demonstrate the
effectiveness of our method. Without any post-processing, our Cap4Video
achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD
(51.8%), and DiDeMo (52.0%).
- Abstract(参考訳): 既存のテキストビデオ検索手法の多くは、オフラインビデオの視覚コンテンツとテキスト検索文の相互マッチングに焦点を当てている。
しかし、実際のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が伴っていて、テキストクエリのマッチングに利用することができる。
これにより、オフラインビデオから関連キャプションを生成し、既存のテキストビデオ検索方法を支援することができます。
そこで本研究では,事前学習したWebスケールモデル(CLIPやGPT-2など)の知識を持つゼロショットビデオキャプタを用いて,オフライン動画のキャプタを生成することを提案する。
補助的な字幕は、テキストビデオ検索に何ができるのか?
本稿では,キャプションを3つの側面から活用した新しいフレームワーク cap4video を提案する。
i) 入力データ: ビデオとキャプションは、トレーニングのためのデータ拡張として、新しいビデオキャプチャペアを形成することができる。
ii) 特徴的相互作用: 映像とキャプション間の特徴的相互作用を行い, 映像表現の強化を行う。
三 出力スコア: Query-Captionマッチングブランチは、元のQuery-Videoマッチングブランチを補完してテキストビデオ検索を行うことができる。
本手法の有効性を実証するために徹底的なアブレーション研究を行う。
後処理なしでは、MPR-VTT(51.4%)、VATEX(66.6%)、MSVD(51.8%)、DiDeMo(52.0%)で最先端のパフォーマンスを実現しています。
関連論文リスト
- HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Video and Text Matching with Conditioned Embeddings [81.81028089100727]
本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
論文 参考訳(メタデータ) (2021-10-21T17:31:50Z) - Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。
我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文 参考訳(メタデータ) (2020-07-29T08:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。