論文の概要: Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration
- arxiv url: http://arxiv.org/abs/2307.14866v1
- Date: Thu, 27 Jul 2023 13:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:20:26.315619
- Title: Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration
- Title(参考訳): フレームの特徴復元による効果的な行動認識
- Authors: Harry Cheng and Yangyang Guo and Liqiang Nie and Zhiyong Cheng and
Mohan Kankanhalli
- Abstract要約: 本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
- 参考スコア(独自算出の注目度): 59.6021678234829
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training an effective video action recognition model poses significant
computational challenges, particularly under limited resource budgets. Current
methods primarily aim to either reduce model size or utilize pre-trained
models, limiting their adaptability to various backbone architectures. This
paper investigates the issue of over-sampled frames, a prevalent problem in
many approaches yet it has received relatively little attention. Despite the
use of fewer frames being a potential solution, this approach often results in
a substantial decline in performance. To address this issue, we propose a novel
method to restore the intermediate features for two sparsely sampled and
adjacent video frames. This feature restoration technique brings a negligible
increase in computational requirements compared to resource-intensive image
encoders, such as ViT. To evaluate the effectiveness of our method, we conduct
extensive experiments on four public datasets, including Kinetics-400,
ActivityNet, UCF-101, and HMDB-51. With the integration of our method, the
efficiency of three commonly used baselines has been improved by over 50%, with
a mere 0.5% reduction in recognition accuracy. In addition, our method also
surprisingly helps improve the generalization ability of the models under
zero-shot settings.
- Abstract(参考訳): 効果的なビデオアクション認識モデルのトレーニングは、特に限られたリソース予算の下で、重要な計算上の課題をもたらす。
現在の手法は主にモデルのサイズを減らすか、事前訓練されたモデルを利用するか、様々なバックボーンアーキテクチャへの適応性を制限することを目的としている。
本稿は,多くのアプローチで広く用いられているオーバーサンプリングフレームの問題について検討するが,あまり注目されていない。
潜在的な解決策としてフレームが少ないにもかかわらず、このアプローチはしばしばパフォーマンスが大幅に低下する。
この問題に対処するために,2つのスパースサンプリングおよび隣接するビデオフレームの中間機能を復元する新しい手法を提案する。
この特徴回復技術は、ViTのようなリソース集約型画像エンコーダと比較して、計算要求の無視的な増加をもたらす。
提案手法の有効性を評価するため,Kinetics-400,ActivityNet,UCF-101,HMDB-51の4つの公開データセットについて広範な実験を行った。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
さらに,本手法は,ゼロショット設定下でのモデルの一般化能力の向上にも有効である。
関連論文リスト
- LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z) - Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms [1.1557852082644071]
少数の分類の文脈において、ゴールは、限られた数のサンプルを使用して分類器を訓練することである。
伝統的なメートル法は、この目的を達成するための一定の限界を示す。
提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
論文 参考訳(メタデータ) (2024-09-12T12:34:29Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Accelerating Multiframe Blind Deconvolution via Deep Learning [0.0]
地上からの太陽画像の復元は計算に費用がかかる手続きである。
本稿では,アルゴリズムのアンロールに基づく復元を高速化する手法を提案する。
両手法が標準最適化法と比較して復元時間を大幅に短縮することを示した。
論文 参考訳(メタデータ) (2023-06-21T07:53:00Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Convolutional Ensembling based Few-Shot Defect Detection Technique [0.0]
我々は,複数の事前学習された畳み込みモデルの知識ベースを用いる,複数ショット分類に対する新しいアプローチを提案する。
本フレームワークでは,パラメータの総数を劇的に削減しつつ,精度を高めるために,新しいアンサンブル手法を用いている。
論文 参考訳(メタデータ) (2022-08-05T17:29:14Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。