論文の概要: Auto-captions on GIF: A Large-scale Video-sentence Dataset for
Vision-language Pre-training
- arxiv url: http://arxiv.org/abs/2007.02375v1
- Date: Sun, 5 Jul 2020 16:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 07:44:59.665909
- Title: Auto-captions on GIF: A Large-scale Video-sentence Dataset for
Vision-language Pre-training
- Title(参考訳): gifのオートキャプチャー:視覚言語事前学習のための大規模ビデオセンテンスデータセット
- Authors: Yingwei Pan and Yehao Li and Jianjie Luo and Jun Xu and Ting Yao and
Tao Mei
- Abstract要約: GIFデータセットのオートキャプションは、ジェネリックビデオ理解のための新しい大規模事前トレーニングデータセットである。
すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって作成される。
- 参考スコア(独自算出の注目度): 112.91603911837436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Auto-captions on GIF, which is a new large-scale
pre-training dataset for generic video understanding. All video-sentence pairs
are created by automatically extracting and filtering video caption annotations
from billions of web pages. Auto-captions on GIF dataset can be utilized to
pre-train the generic feature representation or encoder-decoder structure for
video captioning, and other downstream tasks (e.g., sentence localization in
videos, video question answering, etc.) as well. We present a detailed analysis
of Auto-captions on GIF dataset in comparison to existing video-sentence
datasets. We also provide an evaluation of a Transformer-based encoder-decoder
structure for vision-language pre-training, which is further adapted to video
captioning downstream task and yields the compelling generalizability on
MSR-VTT. The dataset is available at
\url{http://www.auto-video-captions.top/2020/dataset}.
- Abstract(参考訳): そこで本研究では,汎用ビデオ理解のための新しい大規模事前学習データセットであるgifのオートキャプチャを提案する。
すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって生成される。
GIFデータセットのオートキャプションは、ビデオキャプションの一般的な特徴表現やエンコーダ・デコーダ構造、その他の下流タスク(例えば、ビデオにおける文のローカライゼーション、ビデオ質問応答など)の事前トレーニングにも利用できる。
本稿では,既存のビデオ文データセットと比較して,GIFデータセット上でのオートキャプションの詳細な分析を行う。
また,トランスフォーマーをベースとしたエンコーダ・デコーダ構造の評価を行い,映像キャプションの下流処理にさらに適応し,MSR-VTT上での有意な一般化を実現する。
データセットは \url{http://www.auto-video-captions.top/2020/dataset} で利用可能である。
関連論文リスト
- HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [70.48740920699194]
テキストとビデオトークンを共同で最適化し,「ビデオ条件付きテキスト」埋め込みを生成するVicTRを提案する。
本手法は,視覚的な補助テキストの形で,自由に利用できるセマンティック情報を活用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Synchronized Audio-Visual Frames with Fractional Positional Encoding for
Transformers in Video-to-Text Translation [26.36252496316238]
Video-to-Text (VTT) は、短いビデオクリップのための記述を自動的に生成するタスクである。
トランスフォーマーは、機械翻訳と画像キャプションの両方で優れた性能を示しており、VTTの単純かつ再現性に欠ける。
我々は,画像キャプションやビデオ処理から有望なアプローチを探求し,簡単なトランスフォーマーアーキテクチャを開発することでVTTに適用する。
論文 参考訳(メタデータ) (2021-12-28T10:57:18Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。