論文の概要: Omni-sourced Webly-supervised Learning for Video Recognition
- arxiv url: http://arxiv.org/abs/2003.13042v2
- Date: Tue, 25 Aug 2020 06:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 13:50:45.226122
- Title: Omni-sourced Webly-supervised Learning for Video Recognition
- Title(参考訳): ビデオ認識のためのwebly教師付き学習
- Authors: Haodong Duan, Yue Zhao, Yuanjun Xiong, Wentao Liu, Dahua Lin
- Abstract要約: ビデオ認識モデルのトレーニングにWebデータを活用するフレームワークであるOmniSourceを紹介した。
実験によると、複数のソースやフォーマットからのデータを利用することで、OmniSourceはトレーニングにおいてよりデータ効率が高い。
- 参考スコア(独自算出の注目度): 74.3637061856504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce OmniSource, a novel framework for leveraging web data to train
video recognition models. OmniSource overcomes the barriers between data
formats, such as images, short videos, and long untrimmed videos for
webly-supervised learning. First, data samples with multiple formats, curated
by task-specific data collection and automatically filtered by a teacher model,
are transformed into a unified form. Then a joint-training strategy is proposed
to deal with the domain gaps between multiple data sources and formats in
webly-supervised learning. Several good practices, including data balancing,
resampling, and cross-dataset mixup are adopted in joint training. Experiments
show that by utilizing data from multiple sources and formats, OmniSource is
more data-efficient in training. With only 3.5M images and 800K minutes videos
crawled from the internet without human labeling (less than 2% of prior works),
our models learned with OmniSource improve Top-1 accuracy of 2D- and 3D-ConvNet
baseline models by 3.0% and 3.9%, respectively, on the Kinetics-400 benchmark.
With OmniSource, we establish new records with different pretraining strategies
for video recognition. Our best models achieve 80.4%, 80.5%, and 83.6 Top-1
accuracies on the Kinetics-400 benchmark respectively for
training-from-scratch, ImageNet pre-training and IG-65M pre-training.
- Abstract(参考訳): ビデオ認識モデルのトレーニングにWebデータを活用する新しいフレームワークであるOmniSourceを紹介する。
OmniSourceは、画像、ショートビデオ、ウェブ教師あり学習のための長いビデオなど、データフォーマット間の障壁を克服している。
まず、タスク固有のデータ収集によってキュレートされ、教師モデルによって自動的にフィルタリングされる複数の形式のデータサンプルを統一形式で変換する。
次に,複数のデータソースと形式間のドメインギャップに対処する共同学習戦略を提案する。
データバランシング、再サンプリング、データセット間の混成など、いくつかの優れたプラクティスが共同トレーニングで採用されている。
実験によると、複数のソースやフォーマットのデータを利用することで、omnisourceはトレーニングでよりデータ効率が良い。
たった3.5mの画像と8k分のビデオがインターネットからクロールされ(前作の2%以下)、omnisourceで学んだモデルは2d-と3d-convnetのベースラインモデルのtop-1精度をそれぞれ3.0%と3.9%向上させた。
omnisourceでは、ビデオ認識のためのプリトレーニング戦略が異なる新しいレコードを確立する。
我々の最良のモデルは、Kinetics-400ベンチマークでそれぞれ80.4%、80.5%、83.6のTop-1アキュラシーを達成し、ImageNetの事前トレーニングとIG-65Mの事前トレーニングを行った。
関連論文リスト
- Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Identifying Misinformation on YouTube through Transcript Contextual
Analysis with Transformer Models [1.749935196721634]
本稿では,コンテンツの正確性に着目した映像分類手法を提案する。
我々は、分類課題を解決するためにトランスファーラーニングのような高度な機械学習技術を採用している。
トレーニングされたモデルを、(a)YouTube Vaccine-misinformation関連ビデオ、(b)YouTube Pseudoscienceビデオ、(c)Fake-Newsデータセットの3つのデータセットに適用する。
論文 参考訳(メタデータ) (2023-07-22T19:59:16Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z) - Rethinking Zero-shot Video Classification: End-to-end Training for
Realistic Applications [26.955001807330497]
ゼロショット学習(ZSL)はモデルを一度トレーニングし、トレーニングデータセットにクラスが存在しない新しいタスクに一般化する。
ビデオ分類におけるZSLの最初のエンドツーエンドアルゴリズムを提案する。
トレーニング手順は,最近の映像分類文献の知見に基づいて,学習可能な3D CNNを用いて視覚的特徴を学習する。
論文 参考訳(メタデータ) (2020-03-03T11:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。