論文の概要: Video Understanding as Machine Translation
- arxiv url: http://arxiv.org/abs/2006.07203v2
- Date: Thu, 17 Sep 2020 19:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 04:28:36.732211
- Title: Video Understanding as Machine Translation
- Title(参考訳): 機械翻訳としての映像理解
- Authors: Bruno Korbar, Fabio Petroni, Rohit Girdhar, Lorenzo Torresani
- Abstract要約: 我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
- 参考スコア(独自算出の注目度): 53.59298393079866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of large-scale multimodal video datasets, especially
sequences with audio or transcribed speech, there has been a growing interest
in self-supervised learning of video representations. Most prior work
formulates the objective as a contrastive metric learning problem between the
modalities. To enable effective learning, however, these strategies require a
careful selection of positive and negative samples often combined with
hand-designed curriculum policies. In this work we remove the need for negative
sampling by taking a generative modeling approach that poses the objective as a
translation problem between modalities. Such a formulation allows us to tackle
a wide variety of downstream video understanding tasks by means of a single
unified framework, without the need for large batches of negative samples
common in contrastive metric learning. We experiment with the large-scale
HowTo100M dataset for training, and report performance gains over the
state-of-the-art on several downstream tasks including video classification
(EPIC-Kitchens), question answering (TVQA), captioning (TVC, YouCook2, and
MSR-VTT), and text-based clip retrieval (YouCook2 and MSR-VTT).
- Abstract(参考訳): 大規模なマルチモーダルビデオデータセット、特に音声や転写音声を含むシーケンスの出現により、ビデオ表現の自己教師あり学習への関心が高まっている。
ほとんどの先行研究は、目的をモダリティ間の対比的距離学習問題として定式化している。
しかし, 効果的な学習を実現するためには, 正と負のサンプルを慎重に選択する必要がある。
本研究では,モダリティ間の翻訳問題として目的を定式化する生成的モデリング手法を用いて,負のサンプリングの必要性を解消する。
このような定式化により、コントラッシブなメトリック学習に共通する負のサンプルの大きなバッチを必要とせず、単一の統合フレームワークを用いて、幅広いダウンストリームビデオ理解タスクに取り組むことができる。
大規模なトレーニング用ハウト100Mデータセットを実験し、ビデオ分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)、テキストベースのクリップ検索(YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクに対して、最先端の性能向上を報告した。
関連論文リスト
- MAMA: Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning [34.259833094575285]
MAMAはビデオ言語表現の学習における新たなアプローチである。
MAMAは、ビデオ言語表現を改善し、一般的なビデオ質問応答やテキストビデオ検索データセットにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-04T09:52:17Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。
本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文 参考訳(メタデータ) (2022-12-11T18:51:57Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。