論文の概要: Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning
- arxiv url: http://arxiv.org/abs/2302.14115v1
- Date: Mon, 27 Feb 2023 19:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:59:13.701918
- Title: Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning
- Title(参考訳): Vid2Seq:Dense Video Captioningのためのビジュアル言語モデルの大規模事前トレーニング
- Authors: Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi
Pont-Tuset, Ivan Laptev, Josef Sivic and Cordelia Schmid
- Abstract要約: Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
- 参考スコア(独自算出の注目度): 93.6842670770983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Vid2Seq, a multi-modal single-stage dense event
captioning model pretrained on narrated videos which are readily-available at
scale. The Vid2Seq architecture augments a language model with special time
tokens, allowing it to seamlessly predict event boundaries and textual
descriptions in the same output sequence. Such a unified model requires
large-scale training data, which is not available in current annotated
datasets. We show that it is possible to leverage unlabeled narrated videos for
dense video captioning, by reformulating sentence boundaries of transcribed
speech as pseudo event boundaries, and using the transcribed speech sentences
as pseudo event captions. The resulting Vid2Seq model pretrained on the
YT-Temporal-1B dataset improves the state of the art on a variety of dense
video captioning benchmarks including YouCook2, ViTT and ActivityNet Captions.
Vid2Seq also generalizes well to the video paragraph captioning task and the
standard task of video clip captioning. Our code and models will be publicly
released at https://antoyang.github.io/vid2seq.html.
- Abstract(参考訳): 本研究では,大規模で容易に利用できるナレーション付きビデオで事前訓練した,マルチモーダルなシングルステージイベントキャプションモデルであるVid2Seqを紹介する。
Vid2Seqアーキテクチャは特別な時間トークンを持つ言語モデルを拡張し、同じ出力シーケンスにおけるイベント境界とテキスト記述をシームレスに予測する。
このような統一モデルは、現在の注釈付きデータセットでは利用できない大規模なトレーニングデータを必要とする。
本研究は,無ラベルのナレーション映像を密接なビデオキャプションに活用し,転写音声の文境界を疑似イベント境界に再構成し,転写音声を疑似イベントキャプションとして用いることを可能にする。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、YouCook2、ViTT、ActivityNet Captionsなど、多種多様なビデオキャプションベンチマーク上でのテクニックの状態を改善する。
Vid2Seqはまた、ビデオキャプションタスクとビデオクリップキャプションの標準タスクを一般化する。
私たちのコードとモデルはhttps://antoyang.github.io/vid2seq.htmlで公開されます。
関連論文リスト
- Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video
Captioning [0.0]
本研究は,ビデオデータのテキストキャプションへの多対多マッピングを実現するために,エンコーダ・デコーダモデルの実装と利用を実証する。
多対多のマッピングは、ビデオフレームの入力時間シーケンスから、単語の出力シーケンスを経て、キャプション文を形成する。
論文 参考訳(メタデータ) (2023-10-02T02:32:26Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。