論文の概要: Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
- arxiv url: http://arxiv.org/abs/2301.00184v1
- Date: Sat, 31 Dec 2022 11:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:13:17.237366
- Title: Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
- Title(参考訳): cap4video:テキスト・ビデオ検索に補助キャプションは何ができるのか?
- Authors: Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
- Abstract要約: 本稿では,3つの側面のキャプションを利用する新しいフレームワークCap4Videoを提案する。
本手法の有効性を実証するために, 徹底的なアブレーション研究を行っている。
- 参考スコア(独自算出の注目度): 131.300931102986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing text-video retrieval methods focus on cross-modal matching
between the visual content of offline videos and textual query sentences.
However, in real scenarios, online videos are frequently accompanied by
relevant text information such as titles, tags, and even subtitles, which can
be utilized to match textual queries. This inspires us to generate associated
captions from offline videos to help with existing text-video retrieval
methods. To do so, we propose to use the zero-shot video captioner with
knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate
captions for offline videos without any training. Given the captions, one
question naturally arises: what can auxiliary captions do for text-video
retrieval? In this paper, we present a novel framework Cap4Video, which makes
use of captions from three aspects: i) Input data: The video and captions can
form new video-caption pairs as data augmentation for training. ii) Feature
interaction: We perform feature interaction between video and caption to yield
enhanced video representations. iii) Output score: The Query-Caption matching
branch can be complementary to the original Query-Video matching branch for
text-video retrieval. We conduct thorough ablation studies to demonstrate the
effectiveness of our method. Without any post-processing, our Cap4Video
achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD
(51.8%), and DiDeMo (52.0%).
- Abstract(参考訳): 既存のテキストビデオ検索手法の多くは、オフラインビデオの視覚コンテンツとテキスト検索文の相互マッチングに焦点を当てている。
しかし、実際のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が伴っていて、テキストクエリのマッチングに利用することができる。
これにより、オフラインビデオから関連キャプションを生成し、既存のテキストビデオ検索方法を支援することができます。
そこで本研究では,事前学習したWebスケールモデル(CLIPやGPT-2など)の知識を持つゼロショットビデオキャプタを用いて,オフライン動画のキャプタを生成することを提案する。
補助的な字幕は、テキストビデオ検索に何ができるのか?
本稿では,キャプションを3つの側面から活用した新しいフレームワーク cap4video を提案する。
i) 入力データ: ビデオとキャプションは、トレーニングのためのデータ拡張として、新しいビデオキャプチャペアを形成することができる。
ii) 特徴的相互作用: 映像とキャプション間の特徴的相互作用を行い, 映像表現の強化を行う。
三 出力スコア: Query-Captionマッチングブランチは、元のQuery-Videoマッチングブランチを補完してテキストビデオ検索を行うことができる。
本手法の有効性を実証するために徹底的なアブレーション研究を行う。
後処理なしでは、MPR-VTT(51.4%)、VATEX(66.6%)、MSVD(51.8%)、DiDeMo(52.0%)で最先端のパフォーマンスを実現しています。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。