Fugu-MT 論文翻訳(概要): Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training

論文の概要: Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training

arxiv url: http://arxiv.org/abs/2007.02375v1
Date: Sun, 5 Jul 2020 16:11:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-13 07:44:59.665909
Title: Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training
Title（参考訳）: gifのオートキャプチャー:視覚言語事前学習のための大規模ビデオセンテンスデータセット
Authors: Yingwei Pan and Yehao Li and Jianjie Luo and Jun Xu and Ting Yao and Tao Mei
Abstract要約: GIFデータセットのオートキャプションは、ジェネリックビデオ理解のための新しい大規模事前トレーニングデータセットである。すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって作成される。
参考スコア（独自算出の注目度）: 112.91603911837436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present Auto-captions on GIF, which is a new large-scale pre-training dataset for generic video understanding. All video-sentence pairs are created by automatically extracting and filtering video caption annotations from billions of web pages. Auto-captions on GIF dataset can be utilized to pre-train the generic feature representation or encoder-decoder structure for video captioning, and other downstream tasks (e.g., sentence localization in videos, video question answering, etc.) as well. We present a detailed analysis of Auto-captions on GIF dataset in comparison to existing video-sentence datasets. We also provide an evaluation of a Transformer-based encoder-decoder structure for vision-language pre-training, which is further adapted to video captioning downstream task and yields the compelling generalizability on MSR-VTT. The dataset is available at \url{http://www.auto-video-captions.top/2020/dataset}.
Abstract（参考訳）: そこで本研究では,汎用ビデオ理解のための新しい大規模事前学習データセットであるgifのオートキャプチャを提案する。すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって生成される。 GIFデータセットのオートキャプションは、ビデオキャプションの一般的な特徴表現やエンコーダ・デコーダ構造、その他の下流タスク(例えば、ビデオにおける文のローカライゼーション、ビデオ質問応答など)の事前トレーニングにも利用できる。本稿では,既存のビデオ文データセットと比較して,GIFデータセット上でのオートキャプションの詳細な分析を行う。また,トランスフォーマーをベースとしたエンコーダ・デコーダ構造の評価を行い,映像キャプションの下流処理にさらに適応し,MSR-VTT上での有意な一般化を実現する。データセットは \url{http://www.auto-video-captions.top/2020/dataset} で利用可能である。

関連論文リスト

Fine-Grained Video Captioning through Scene Graph Consolidation [44.30028794237688]
本稿では,動画からフレームレベルのシーングラフを合成し,キャプション生成の中間表現を得るゼロショットビデオキャプション手法を提案する。提案手法は,まず画像VLMを用いてフレームレベルのキャプションを生成し,それらをシーングラフに変換し,これらのグラフを統合し,包括的なビデオレベルの記述を生成する。
論文参考訳（メタデータ） (2025-02-23T03:59:05Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文参考訳（メタデータ） (2023-10-07T19:32:55Z)
VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文参考訳（メタデータ） (2023-04-05T16:30:36Z)
Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文参考訳（メタデータ） (2023-04-04T19:11:05Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文参考訳（メタデータ） (2022-05-22T05:18:27Z)
Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text Translation [26.36252496316238]
Video-to-Text (VTT) は、短いビデオクリップのための記述を自動的に生成するタスクである。トランスフォーマーは、機械翻訳と画像キャプションの両方で優れた性能を示しており、VTTの単純かつ再現性に欠ける。我々は,画像キャプションやビデオ処理から有望なアプローチを探求し,簡単なトランスフォーマーアーキテクチャを開発することでVTTに適用する。
論文参考訳（メタデータ） (2021-12-28T10:57:18Z)
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文参考訳（メタデータ） (2021-11-25T18:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。