論文の概要: Auto-captions on GIF: A Large-scale Video-sentence Dataset for
Vision-language Pre-training
- arxiv url: http://arxiv.org/abs/2007.02375v1
- Date: Sun, 5 Jul 2020 16:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 07:44:59.665909
- Title: Auto-captions on GIF: A Large-scale Video-sentence Dataset for
Vision-language Pre-training
- Title(参考訳): gifのオートキャプチャー:視覚言語事前学習のための大規模ビデオセンテンスデータセット
- Authors: Yingwei Pan and Yehao Li and Jianjie Luo and Jun Xu and Ting Yao and
Tao Mei
- Abstract要約: GIFデータセットのオートキャプションは、ジェネリックビデオ理解のための新しい大規模事前トレーニングデータセットである。
すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって作成される。
- 参考スコア(独自算出の注目度): 112.91603911837436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Auto-captions on GIF, which is a new large-scale
pre-training dataset for generic video understanding. All video-sentence pairs
are created by automatically extracting and filtering video caption annotations
from billions of web pages. Auto-captions on GIF dataset can be utilized to
pre-train the generic feature representation or encoder-decoder structure for
video captioning, and other downstream tasks (e.g., sentence localization in
videos, video question answering, etc.) as well. We present a detailed analysis
of Auto-captions on GIF dataset in comparison to existing video-sentence
datasets. We also provide an evaluation of a Transformer-based encoder-decoder
structure for vision-language pre-training, which is further adapted to video
captioning downstream task and yields the compelling generalizability on
MSR-VTT. The dataset is available at
\url{http://www.auto-video-captions.top/2020/dataset}.
- Abstract(参考訳): そこで本研究では,汎用ビデオ理解のための新しい大規模事前学習データセットであるgifのオートキャプチャを提案する。
すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって生成される。
GIFデータセットのオートキャプションは、ビデオキャプションの一般的な特徴表現やエンコーダ・デコーダ構造、その他の下流タスク(例えば、ビデオにおける文のローカライゼーション、ビデオ質問応答など)の事前トレーニングにも利用できる。
本稿では,既存のビデオ文データセットと比較して,GIFデータセット上でのオートキャプションの詳細な分析を行う。
また,トランスフォーマーをベースとしたエンコーダ・デコーダ構造の評価を行い,映像キャプションの下流処理にさらに適応し,MSR-VTT上での有意な一般化を実現する。
データセットは \url{http://www.auto-video-captions.top/2020/dataset} で利用可能である。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Synchronized Audio-Visual Frames with Fractional Positional Encoding for
Transformers in Video-to-Text Translation [26.36252496316238]
Video-to-Text (VTT) は、短いビデオクリップのための記述を自動的に生成するタスクである。
トランスフォーマーは、機械翻訳と画像キャプションの両方で優れた性能を示しており、VTTの単純かつ再現性に欠ける。
我々は,画像キャプションやビデオ処理から有望なアプローチを探求し,簡単なトランスフォーマーアーキテクチャを開発することでVTTに適用する。
論文 参考訳(メタデータ) (2021-12-28T10:57:18Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。