論文の概要: AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video
Recognition
- arxiv url: http://arxiv.org/abs/2112.14238v1
- Date: Tue, 28 Dec 2021 17:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:02:28.074584
- Title: AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video
Recognition
- Title(参考訳): AdaFocus V2:ビデオ認識のための空間動的ネットワークのエンドツーエンドトレーニング
- Authors: Yulin Wang, Yang Yue, Yuanze Lin, Haojun Jiang, Zihang Lai, Victor
Kulikov, Nikita Orlov, Humphrey Shi, Gao Huang
- Abstract要約: この研究は、AdaFocusのトレーニングを単純なワンステージアルゴリズムとして再構成する。
本稿では,1段階の定式化で導入された問題に対処するための改良されたトレーニング手法を提案する。
私たちのモデルは、オリジナルのAdaFocusや他の競争ベースラインを大きく上回っています。
- 参考スコア(独自算出の注目度): 23.12743642910384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that the computational efficiency of video
recognition can be significantly improved by reducing the spatial redundancy.
As a representative work, the adaptive focus method (AdaFocus) has achieved a
favorable trade-off between accuracy and inference speed by dynamically
identifying and attending to the informative regions in each video frame.
However, AdaFocus requires a complicated three-stage training pipeline
(involving reinforcement learning), leading to slow convergence and is
unfriendly to practitioners. This work reformulates the training of AdaFocus as
a simple one-stage algorithm by introducing a differentiable
interpolation-based patch selection operation, enabling efficient end-to-end
optimization. We further present an improved training scheme to address the
issues introduced by the one-stage formulation, including the lack of
supervision, input diversity and training stability. Moreover, a
conditional-exit technique is proposed to perform temporal adaptive computation
on top of AdaFocus without additional training. Extensive experiments on six
benchmark datasets (i.e., ActivityNet, FCVID, Mini-Kinetics,
Something-Something V1&V2, and Jester) demonstrate that our model significantly
outperforms the original AdaFocus and other competitive baselines, while being
considerably more simple and efficient to train. Code is available at
https://github.com/LeapLabTHU/AdaFocusV2.
- Abstract(参考訳): 近年の研究では,空間冗長性を低減し,映像認識の計算効率を大幅に向上できることが示されている。
アダプティブフォーカス法(adafocus)は,映像フレーム内の情報領域を動的に識別し,対応することにより,精度と推論速度のトレードオフを良好に達成している。
しかし、adafocusは複雑な3段階のトレーニングパイプライン(強化学習)を必要とするため、収束が遅く、実践者には不向きである。
本研究は, AdaFocus の訓練を1段階の単純なアルゴリズムとして改良し, 異なる補間ベースのパッチ選択操作を導入し, 効率的なエンドツーエンド最適化を実現する。
さらに,1段階の定式化によってもたらされる課題に対処し,監督の欠如,入力多様性,トレーニング安定性などを改善するためのトレーニング手法を提案する。
さらに, adafocus上での時間適応計算を, 追加のトレーニングをすることなく行うための条件提示手法を提案する。
6つのベンチマークデータセット(ActivityNet、FCVID、Mini-Kinetics、Something V1&V2、Jester)に対する大規模な実験により、我々のモデルはAdaFocusや他の競合するベースラインを大幅に上回り、トレーニングもかなりシンプルで効率的であることが示された。
コードはhttps://github.com/LeapLabTHU/AdaFocusV2で入手できる。
関連論文リスト
- Towards Seamless Adaptation of Pre-trained Models for Visual Place
Recognition [76.66784893699054]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - VeCAF: VLM-empowered Collaborative Active Finetuning with Training
Objective Awareness [58.40419742596087]
PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。
VLMを用いた協調型アクティブファインタニング(VeCAF)を提案する。
VeCAFは、調整中のモデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition [44.10959567844497]
本稿では,最近提案されたAdaFocusV2アルゴリズム上での時空間力学の統一的な定式化について検討する。
AdaFocusV3は、未分化の収穫操作を深い特徴の計算で近似することにより、効果的に訓練することができる。
論文 参考訳(メタデータ) (2022-09-27T15:30:52Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - MILA: Multi-Task Learning from Videos via Efficient Inter-Frame
Attention [39.45800143159756]
我々は、フレーム間局所的効率的な注意(MILA)によるビデオからのマルチタスク学習のための新しいアプローチを提案する。
提案手法は,フレーム間のタスク固有の注意を学習可能な,新しいフレーム間注意モジュールを含む。
また,ネットワークの遅さと高速さを両立させる効果的な対角学習戦略を提案する。
論文 参考訳(メタデータ) (2020-02-18T04:25:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。