論文の概要: Optimization Planning for 3D ConvNets
- arxiv url: http://arxiv.org/abs/2201.04021v1
- Date: Tue, 11 Jan 2022 16:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:16:54.781568
- Title: Optimization Planning for 3D ConvNets
- Title(参考訳): 3D ConvNet の最適化計画
- Authors: Zhaofan Qiu and Ting Yao and Chong-Wah Ngo and Tao Mei
- Abstract要約: 3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
- 参考スコア(独自算出の注目度): 123.43419144051703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is not trivial to optimally learn a 3D Convolutional Neural Networks (3D
ConvNets) due to high complexity and various options of the training scheme.
The most common hand-tuning process starts from learning 3D ConvNets using
short video clips and then is followed by learning long-term temporal
dependency using lengthy clips, while gradually decaying the learning rate from
high to low as training progresses. The fact that such process comes along with
several heuristic settings motivates the study to seek an optimal "path" to
automate the entire training. In this paper, we decompose the path into a
series of training "states" and specify the hyper-parameters, e.g., learning
rate and the length of input clips, in each state. The estimation of the knee
point on the performance-epoch curve triggers the transition from one state to
another. We perform dynamic programming over all the candidate states to plan
the optimal permutation of states, i.e., optimization path. Furthermore, we
devise a new 3D ConvNets with a unique design of dual-head classifier to
improve spatial and temporal discrimination. Extensive experiments on seven
public video recognition benchmarks demonstrate the advantages of our proposal.
With the optimization planning, our 3D ConvNets achieves superior results when
comparing to the state-of-the-art recognition methods. More remarkably, we
obtain the top-1 accuracy of 80.5% and 82.7% on Kinetics-400 and Kinetics-600
datasets, respectively. Source code is available at
https://github.com/ZhaofanQiu/Optimization-Planning-for-3D-ConvNets.
- Abstract(参考訳): 3次元畳み込みニューラルネットワーク(3d convnets)を最適に学習するのは、高い複雑性とトレーニングスキームの様々なオプションのためである。
最も一般的なハンドチューニングプロセスは、短いビデオクリップを使って3dコンベネットを学習することから始まり、その後、長いクリップを使って長期の時間依存を学習し、トレーニングが進むにつれて学習率を徐々に低下させる。
このようなプロセスといくつかのヒューリスティックな設定が組み合わさったという事実は、トレーニング全体を自動化するための最適な"パス"を求めて研究を動機付ける。
本稿では,パスを一連のトレーニング「状態」に分解し,各状態における学習率や入力クリップの長さなどのハイパーパラメータを指定する。
パフォーマンス・エピック曲線における膝点の推定は、ある状態から別の状態への遷移を引き起こす。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
さらに,空間的および時間的識別性を改善するために,デュアルヘッド分類器を独自に設計した新しい3次元convnetを考案する。
7つの公開ビデオ認識ベンチマークに関する広範囲な実験が提案の利点を示している。
最適化計画では、3D ConvNetsは最先端の認識手法と比較して優れた結果が得られる。
より顕著に、Kinetics-400とKinetics-600のデータセットでそれぞれ80.5%と82.7%というトップ1の精度を得る。
ソースコードはhttps://github.com/ZhaofanQiu/Optimization-Planning-for-3D-ConvNetsで入手できる。
関連論文リスト
- 3D-CSL: self-supervised 3D context similarity learning for
Near-Duplicate Video Retrieval [17.69904571043164]
NDVR(Near-Duplicate Video Retrieval)のためのコンパクトパイプラインである3D-SLを導入する。
ネットワークを最適化するための2段階の自己教師型類似性学習戦略を提案する。
本手法は,クリップレベルのNDVRにおける最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-10T05:51:08Z) - DBQ-SSD: Dynamic Ball Query for Efficient 3D Object Detection [113.5418064456229]
入力特徴に応じて入力点のサブセットを適応的に選択する動的ボールクエリ(DBQ)ネットワークを提案する。
最先端の3D検出器に組み込むことができ、エンドツーエンドで訓練することで、計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2022-07-22T07:08:42Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation [11.10636117512819]
本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
論文 参考訳(メタデータ) (2020-02-17T01:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。