論文の概要: Revisiting 3D ResNets for Video Recognition
- arxiv url: http://arxiv.org/abs/2109.01696v1
- Date: Fri, 3 Sep 2021 18:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 12:57:01.899951
- Title: Revisiting 3D ResNets for Video Recognition
- Title(参考訳): 映像認識のための3次元ResNetの再検討
- Authors: Xianzhi Du, Yeqing Li, Yin Cui, Rui Qian, Jing Li, Irwan Bello
- Abstract要約: 本稿では,ビデオ認識モデルの効果的なトレーニングとスケーリング戦略について述べる。
本稿では,3次元ResNetの簡単なスケーリング戦略を提案する。
- 参考スコア(独自算出の注目度): 18.91688307058961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent work from Bello shows that training and scaling strategies may be
more significant than model architectures for visual recognition. This short
note studies effective training and scaling strategies for video recognition
models. We propose a simple scaling strategy for 3D ResNets, in combination
with improved training strategies and minor architectural changes. The
resulting models, termed 3D ResNet-RS, attain competitive performance of 81.0
on Kinetics-400 and 83.8 on Kinetics-600 without pre-training. When pre-trained
on a large Web Video Text dataset, our best model achieves 83.5 and 84.3 on
Kinetics-400 and Kinetics-600. The proposed scaling rule is further evaluated
in a self-supervised setup using contrastive learning, demonstrating improved
performance. Code is available at:
https://github.com/tensorflow/models/tree/master/official.
- Abstract(参考訳): Bello氏の最近の研究は、トレーニングとスケーリング戦略が視覚認識のためのモデルアーキテクチャよりも重要であることを示している。
本稿では,ビデオ認識モデルの効果的なトレーニングとスケーリング戦略について述べる。
本研究では,3dリネットのための簡易なスケーリング戦略を提案する。
結果は3D ResNet-RSと呼ばれ、キネティクス400で81.0、キネティクス600で83.8の競争性能を達成した。
大規模webビデオテキストデータセットで事前トレーニングすると、kinetics-400とkinetics-600で83.5と84.3を達成した。
提案するスケーリングルールは,コントラスト学習を用いて自己教師あり設定でさらに評価され,性能が向上した。
https://github.com/tensorflow/models/tree/master/official。
関連論文リスト
- ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks
for Lighter, Faster and Robust Models [0.0]
トレーニングパラメータ数を逐次減少させることで,効率的な深層畳み込みネットワークを段階的に構築する方法を実証する。
我々は、MNISTのデータに対して、わずか1500のパラメータで99.2%のSOTA精度と、CIFAR-10データセットで140K以上のパラメータで86.01%の精度を達成した。
論文 参考訳(メタデータ) (2022-05-23T13:51:06Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Revisiting ResNets: Improved Training and Scaling Strategies [54.0162571976267]
トレーニングとスケーリングの戦略は、アーキテクチャの変更よりも重要であり、その結果、ResNetは最新のモデルと一致します。
ベストパフォーマンスなスケーリング戦略は、トレーニング体制に依存することを示します。
私たちは、ResNetアーキテクチャのファミリー、ResNet-RSを設計します。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍 - 2.7倍高速です。
論文 参考訳(メタデータ) (2021-03-13T00:18:19Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - Omni-sourced Webly-supervised Learning for Video Recognition [74.3637061856504]
ビデオ認識モデルのトレーニングにWebデータを活用するフレームワークであるOmniSourceを紹介した。
実験によると、複数のソースやフォーマットからのデータを利用することで、OmniSourceはトレーニングにおいてよりデータ効率が高い。
論文 参考訳(メタデータ) (2020-03-29T14:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。