論文の概要: Beyond Instructional Videos: Probing for More Diverse Visual-Textual
Grounding on YouTube
- arxiv url: http://arxiv.org/abs/2004.14338v2
- Date: Fri, 16 Oct 2020 17:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:40:10.077492
- Title: Beyond Instructional Videos: Probing for More Diverse Visual-Textual
Grounding on YouTube
- Title(参考訳): インストラクショナルビデオを超えて:YouTube上のもっと多様なビジュアルテキストグラウンドの探索
- Authors: Jack Hessel, Zhenhai Zhu, Bo Pang, Radu Soricut
- Abstract要約: 未探索の動画カテゴリで視覚的テキストのグラウンド化が可能であることを示す。
より多様な集合に対する事前学習は、非命令的領域と命令的領域の両方に一般化する表現をもたらす。
- 参考スコア(独自算出の注目度): 35.32213834577941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining from unlabelled web videos has quickly become the de-facto means
of achieving high performance on many video understanding tasks. Features are
learned via prediction of grounded relationships between visual content and
automatic speech recognition (ASR) tokens. However, prior pretraining work has
been limited to only instructional videos; a priori, we expect this domain to
be relatively "easy:" speakers in instructional videos will often reference the
literal objects/actions being depicted. We ask: can similar models be trained
on more diverse video corpora? And, if so, what types of videos are "grounded"
and what types are not? We fit a representative pretraining model to the
diverse YouTube8M dataset, and study its success and failure cases. We find
that visual-textual grounding is indeed possible across previously unexplored
video categories, and that pretraining on a more diverse set results in
representations that generalize to both non-instructional and instructional
domains.
- Abstract(参考訳): ラベルなしのwebビデオからの事前トレーニングは、多くのビデオ理解タスクでハイパフォーマンスを達成するためのデファクトの手段に急速になっている。
特徴は、視覚コンテンツと自動音声認識(ASR)トークンの接地関係の予測を通じて学習される。
しかし、事前学習の作業は、教育ビデオのみに限られており、先行研究では、この領域が比較的「簡単」であることを期待している: 教育ビデオの話者は、しばしば描写されるリテラルオブジェクト/アクションを参照する。
同様のモデルは、より多様なビデオコーパスでトレーニングできますか?
そしてもしそうなら、どのタイプのビデオが“接地”で、どのタイプのビデオがそうではないのか?
さまざまなYouTube8Mデータセットに、代表的な事前トレーニングモデルを適用し、その成功と失敗ケースを調査します。
視覚的テキストのグラウンド化は、これまで探索されていなかったビデオカテゴリーで可能であり、より多様なセットでの事前学習によって、非教育的領域と教育的領域の両方に一般化される。
関連論文リスト
- InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。