論文の概要: AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video
Recognition
- arxiv url: http://arxiv.org/abs/2112.14238v1
- Date: Tue, 28 Dec 2021 17:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:02:28.074584
- Title: AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video
Recognition
- Title(参考訳): AdaFocus V2:ビデオ認識のための空間動的ネットワークのエンドツーエンドトレーニング
- Authors: Yulin Wang, Yang Yue, Yuanze Lin, Haojun Jiang, Zihang Lai, Victor
Kulikov, Nikita Orlov, Humphrey Shi, Gao Huang
- Abstract要約: この研究は、AdaFocusのトレーニングを単純なワンステージアルゴリズムとして再構成する。
本稿では,1段階の定式化で導入された問題に対処するための改良されたトレーニング手法を提案する。
私たちのモデルは、オリジナルのAdaFocusや他の競争ベースラインを大きく上回っています。
- 参考スコア(独自算出の注目度): 23.12743642910384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that the computational efficiency of video
recognition can be significantly improved by reducing the spatial redundancy.
As a representative work, the adaptive focus method (AdaFocus) has achieved a
favorable trade-off between accuracy and inference speed by dynamically
identifying and attending to the informative regions in each video frame.
However, AdaFocus requires a complicated three-stage training pipeline
(involving reinforcement learning), leading to slow convergence and is
unfriendly to practitioners. This work reformulates the training of AdaFocus as
a simple one-stage algorithm by introducing a differentiable
interpolation-based patch selection operation, enabling efficient end-to-end
optimization. We further present an improved training scheme to address the
issues introduced by the one-stage formulation, including the lack of
supervision, input diversity and training stability. Moreover, a
conditional-exit technique is proposed to perform temporal adaptive computation
on top of AdaFocus without additional training. Extensive experiments on six
benchmark datasets (i.e., ActivityNet, FCVID, Mini-Kinetics,
Something-Something V1&V2, and Jester) demonstrate that our model significantly
outperforms the original AdaFocus and other competitive baselines, while being
considerably more simple and efficient to train. Code is available at
https://github.com/LeapLabTHU/AdaFocusV2.
- Abstract(参考訳): 近年の研究では,空間冗長性を低減し,映像認識の計算効率を大幅に向上できることが示されている。
アダプティブフォーカス法(adafocus)は,映像フレーム内の情報領域を動的に識別し,対応することにより,精度と推論速度のトレードオフを良好に達成している。
しかし、adafocusは複雑な3段階のトレーニングパイプライン(強化学習)を必要とするため、収束が遅く、実践者には不向きである。
本研究は, AdaFocus の訓練を1段階の単純なアルゴリズムとして改良し, 異なる補間ベースのパッチ選択操作を導入し, 効率的なエンドツーエンド最適化を実現する。
さらに,1段階の定式化によってもたらされる課題に対処し,監督の欠如,入力多様性,トレーニング安定性などを改善するためのトレーニング手法を提案する。
さらに, adafocus上での時間適応計算を, 追加のトレーニングをすることなく行うための条件提示手法を提案する。
6つのベンチマークデータセット(ActivityNet、FCVID、Mini-Kinetics、Something V1&V2、Jester)に対する大規模な実験により、我々のモデルはAdaFocusや他の競合するベースラインを大幅に上回り、トレーニングもかなりシンプルで効率的であることが示された。
コードはhttps://github.com/LeapLabTHU/AdaFocusV2で入手できる。
関連論文リスト
- Efficient Reinforcement Learning Through Adaptively Pretrained Visual Encoder [12.310140622800372]
APE:適応事前学習による効率的な強化学習を提案する。
APEは、事前学習期間中に適応的な拡張戦略を使用し、政策学習期間中にタスク環境内でほんのわずかの相互作用しか持たない一般化可能な特徴を抽出する。
その結果、DreamerV3やDrQ-v2といった主流のRL法は、APEを装着すると最先端の性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-08T12:57:02Z) - Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition [82.75714185083383]
本稿では,映像理解におけるデータ冗長性の現象について検討し,計算効率の向上を目的とした。
この現象に触発され,AdaFocusと呼ばれる空間適応型ビデオ認識手法を導入する。
得られたフレームワークであるUni-AdaFocusは、シームレスに空間的、時間的、サンプルワイドな動的計算を統合する包括的なフレームワークを構築します。
論文 参考訳(メタデータ) (2024-12-15T15:51:44Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition [44.10959567844497]
本稿では,最近提案されたAdaFocusV2アルゴリズム上での時空間力学の統一的な定式化について検討する。
AdaFocusV3は、未分化の収穫操作を深い特徴の計算で近似することにより、効果的に訓練することができる。
論文 参考訳(メタデータ) (2022-09-27T15:30:52Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。