論文の概要: Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
- arxiv url: http://arxiv.org/abs/2301.00184v2
- Date: Sun, 26 Mar 2023 09:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:03:29.166970
- Title: Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
- Title(参考訳): cap4video:テキスト・ビデオ検索に補助キャプションは何ができるのか?
- Authors: Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
- Abstract要約: 現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
- 参考スコア(独自算出の注目度): 131.300931102986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing text-video retrieval methods focus on cross-modal matching
between the visual content of videos and textual query sentences. However, in
real-world scenarios, online videos are often accompanied by relevant text
information such as titles, tags, and even subtitles, which can be utilized to
match textual queries. This insight has motivated us to propose a novel
approach to text-video retrieval, where we directly generate associated
captions from videos using zero-shot video captioning with knowledge from
web-scale pre-trained models (e.g., CLIP and GPT-2). Given the generated
captions, a natural question arises: what benefits do they bring to text-video
retrieval? To answer this, we introduce Cap4Video, a new framework that
leverages captions in three ways: i) Input data: video-caption pairs can
augment the training data. ii) Intermediate feature interaction: we perform
cross-modal feature interaction between the video and caption to produce
enhanced video representations. iii) Output score: the Query-Caption matching
branch can complement the original Query-Video matching branch for text-video
retrieval. We conduct comprehensive ablation studies to demonstrate the
effectiveness of our approach. Without any post-processing, Cap4Video achieves
state-of-the-art performance on four standard text-video retrieval benchmarks:
MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%). The code is
available at https://github.com/whwu95/Cap4Video .
- Abstract(参考訳): 既存のテキストビデオ検索手法の多くは、ビデオの視覚的内容とテキスト検索文の相互マッチングに重点を置いている。
しかし、現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が含まれており、テキストクエリのマッチングに利用することができる。
この知見は,ウェブ規模の事前学習モデル(CLIPやGPT-2など)の知識を生かしたゼロショットビデオキャプションを用いて,ビデオから関連キャプションを直接生成する,テキストビデオ検索の新しいアプローチを提案する動機となった。
生成したキャプションを考えると、自然な疑問が生まれます。テキストビデオ検索にどのようなメリットがあるのでしょうか?
これに対応するために、キャプションを3つの方法で活用する新しいフレームワークであるCap4Videoを紹介します。
i) 入力データ: ビデオキャプチャペアは、トレーニングデータを強化することができる。
ii)中間機能間相互作用:ビデオとキャプション間の相互機能間相互作用を行い,拡張された映像表現を生成する。
三 出力スコア: Query-Captionマッチングブランチは、元のQuery-Videoマッチングブランチを補完して、テキストビデオ検索を行うことができる。
本手法の有効性を実証するために包括的アブレーション研究を行う。
後処理を行わないCap4Videoは、MSR-VTT (51.4%)、VATEX (66.6%)、MSVD (51.8%)、DiDeMo (52.0%)の4つの標準テキストビデオ検索ベンチマークで最先端のパフォーマンスを達成した。
コードはhttps://github.com/whwu95/cap4videoで入手できる。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。