論文の概要: Learning Video Representations from Textual Web Supervision
- arxiv url: http://arxiv.org/abs/2007.14937v2
- Date: Fri, 27 Aug 2021 18:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:37:39.707235
- Title: Learning Video Representations from Textual Web Supervision
- Title(参考訳): テキストWebスーパービジョンによる映像表現の学習
- Authors: Jonathan C. Stroud, Zhichao Lu, Chen Sun, Jia Deng, Rahul Sukthankar,
Cordelia Schmid, David A. Ross
- Abstract要約: 本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
- 参考スコア(独自算出の注目度): 97.78883761035557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos on the Internet are paired with pieces of text, such as titles and
descriptions. This text typically describes the most important content in the
video, such as the objects in the scene and the actions being performed. Based
on this observation, we propose to use text as a method for learning video
representations. To accomplish this, we propose a data collection process and
use it to collect 70M video clips shared publicly on the Internet, and we then
train a model to pair each video with its associated text. We evaluate the
model on several down-stream action recognition tasks, including Kinetics,
HMDB-51, and UCF-101. We find that this approach is an effective method of
pre-training video representations. Specifically, it outperforms all existing
methods for self-supervised and cross-modal video representation learning.
- Abstract(参考訳): インターネット上のビデオは、タイトルや説明などのテキストと組み合わせられている。
このテキストは典型的には、シーン内のオブジェクトや実行中のアクションなど、ビデオの中で最も重要な内容を記述する。
そこで本研究では,映像表現の学習方法としてテキストの利用を提案する。
これを実現するために,データ収集プロセスを提案し,インターネット上で公開されている7千万のビデオクリップを収集し,各動画と関連するテキストをペアリングするモデルを訓練する。
本研究では,Kinetics,HMDB-51,UCF-101などのダウンストリーム動作認識タスクにおけるモデルの評価を行った。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
具体的には、既存のすべての自己教師付きおよびクロスモーダルビデオ表現学習方法よりも優れています。
関連論文リスト
- In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。