論文の概要: Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data
- arxiv url: http://arxiv.org/abs/2304.02080v1
- Date: Tue, 4 Apr 2023 19:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:13:54.187549
- Title: Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data
- Title(参考訳): ビデオ・テキストデータなしのスケーラブルで高精度な自己教師型マルチモーダル表現学習
- Authors: Vladislav Lialin, Stephen Rawls, David Chan, Shalini Ghosh, Anna
Rumshisky, Wael Hamza
- Abstract要約: 画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
- 参考スコア(独自算出の注目度): 18.479220305684837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling up weakly-supervised datasets has shown to be highly effective in the
image-text domain and has contributed to most of the recent state-of-the-art
computer vision and multimodal neural networks. However, existing large-scale
video-text datasets and mining techniques suffer from several limitations, such
as the scarcity of aligned data, the lack of diversity in the data, and the
difficulty of collecting aligned data. Currently popular video-text data mining
approach via automatic speech recognition (ASR) used in HowTo100M provides
low-quality captions that often do not refer to the video content. Other mining
approaches do not provide proper language descriptions (video tags) and are
biased toward short clips (alt text). In this work, we show how recent advances
in image captioning allow us to pre-train high-quality video models without any
parallel video-text data. We pre-train several video captioning models that are
based on an OPT language model and a TimeSformer visual backbone. We fine-tune
these networks on several video captioning datasets. First, we demonstrate that
image captioning pseudolabels work better for pre-training than the existing
HowTo100M ASR captions. Second, we show that pre-training on both images and
videos produces a significantly better network (+4 CIDER on MSR-VTT) than
pre-training on a single modality. Our methods are complementary to the
existing pre-training or data mining approaches and can be used in a variety of
settings. Given the efficacy of the pseudolabeling method, we are planning to
publicly release the generated captions.
- Abstract(参考訳): 弱い教師付きデータセットのスケールアップは、画像テキスト領域で非常に効果的であることが示され、最近の最先端のコンピュータビジョンやマルチモーダルニューラルネットワークに寄与している。
しかし、既存の大規模ビデオテキストデータセットとマイニング技術には、整列データの不足、データの多様性の欠如、整列データの収集が困難といったいくつかの制限がある。
現在、HowTo100Mで使われている自動音声認識(ASR)によるビデオテキストデータマイニング手法は、しばしばビデオコンテンツを参照しない低品質のキャプションを提供する。
他のマイニングアプローチは適切な言語記述(ビデオタグ)を提供しておらず、短いクリップ(altテキスト)に偏っている。
本稿では,画像キャプションの最近の進歩により,映像テキストの並列化を伴わずに高品質な映像モデルを事前学習できることを示す。
我々は、OPT言語モデルとTimeSformerビジュアルバックボーンに基づくいくつかのビデオキャプションモデルを事前訓練する。
これらのネットワークをいくつかのビデオキャプションデータセットに微調整する。
まず,既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
第2に,画像とビデオの両方の事前学習は,単一のモダリティで事前学習するよりも有意に優れたネットワーク(msr-vttでは+4 cider)を生成する。
本手法は,既存の事前学習やデータマイニング手法を補完し,様々な設定で使用できる。
擬似ラベル方式の有効性を考えると、生成されたキャプションを公開する計画である。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - Learning Audio-Video Modalities from Image Captions [62.772232865072745]
テキストビデオとテキストオーディオ検索における大きな課題は、大規模なトレーニングデータがないことである。
画像キャプションデータセットからビデオクリップへのキャプションを手作業なしで転送する新しいビデオマイニングパイプラインを提案する。
このデータに基づくマルチモーダル変換モデルによるトレーニングは、ビデオ検索やビデオキャプションの競合性能、マッチング、さらには20倍のクリップでHowTo100Mの事前トレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:48:18Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。