論文の概要: MoCrop: Training Free Motion Guided Cropping for Efficient Video Action Recognition
- arxiv url: http://arxiv.org/abs/2509.18473v1
- Date: Mon, 22 Sep 2025 23:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.612869
- Title: MoCrop: Training Free Motion Guided Cropping for Efficient Video Action Recognition
- Title(参考訳): MoCrop:効果的なビデオアクション認識のためのフリーモーションガイドクロップのトレーニング
- Authors: Binhua Huang, Wendong Yao, Shaowu Chen, Guoxin Wang, Qingyuan Wang, Soumyabrata Dev,
- Abstract要約: MoCrop (MoCrop) は、圧縮された領域における効率的なビデオアクション認識のための、モーション対応の適応型収穫モジュールである。
MoCropは、H.264ビデオで利用可能なモーションベクトルを使用して、モーションセンス領域を特定し、推論時にすべてのIフレームに適用される単一のクリップレベルの作物を生成する。
- 参考スコア(独自算出の注目度): 5.968430890052823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MoCrop, a motion-aware adaptive cropping module for efficient video action recognition in the compressed domain. MoCrop uses motion vectors that are available in H.264 video to locate motion-dense regions and produces a single clip-level crop that is applied to all I-frames at inference. The module is training free, adds no parameters, and can be plugged into diverse backbones. A lightweight pipeline that includes denoising & merge (DM), Monte Carlo sampling (MCS), and adaptive cropping (AC) via a motion-density submatrix search yields robust crops with negligible overhead. On UCF101, MoCrop improves accuracy or reduces compute. With ResNet-50, it delivers +3.5% Top-1 accuracy at equal FLOPs (attention setting), or +2.4% Top-1 accuracy with 26.5% fewer FLOPs (efficiency setting). Applied to CoViAR, it reaches 89.2% Top-1 accuracy at the original cost and 88.5% Top-1 accuracy while reducing compute from 11.6 to 8.5 GFLOPs. Consistent gains on MobileNet-V3, EfficientNet-B1, and Swin-B indicate strong generality and make MoCrop practical for real-time deployment in the compressed domain. Our code and models are available at https://github.com/microa/MoCrop.
- Abstract(参考訳): 圧縮領域における効率的な映像行動認識のための動き認識適応型トリミングモジュールであるMoCropを紹介する。
MoCropは、H.264ビデオで利用可能なモーションベクトルを使用して、モーションセンス領域を特定し、推論時にすべてのIフレームに適用される単一のクリップレベルの作物を生成する。
モジュールは無償でトレーニングされ、パラメータを追加せず、さまざまなバックボーンにプラグインできる。
モンテカルロサンプリング(MCS)、アダプティブトリッピング(AC)を含む軽量パイプラインは、運動密度サブ行列探索により、無視できないオーバーヘッドで堅牢な作物を生産する。
UCF101では、MoCropは精度を改善したり、計算量を削減したりする。
ResNet-50では、同じFLOP(アテンション設定)で+3.5%のTop-1精度、26.5%のFLOP(効率設定)で+2.4%のTop-1精度を提供する。
CoViARでは、オリジナルのコストで89.2%のTop-1精度、88.5%のTop-1精度で計算を11.6から8.5 GFLOPに削減した。
MobileNet-V3、EfficientNet-B1、Swin-Bの連続的なゲインは、強い汎用性を示し、圧縮されたドメインでのリアルタイムデプロイメントにMoCropを実用的なものにしている。
私たちのコードとモデルはhttps://github.com/microa/MoCrop.comで公開されています。
関連論文リスト
- MoCLIP-Lite: Efficient Video Recognition by Fusing CLIP with Motion Vectors [4.430215688770673]
MoCLIP-Liteは、効率的なビデオ認識のためのシンプルだが強力な2ストリーム遅延融合フレームワークである。
提案手法は,凍結したCLIP画像エンコーダと,生のMVで訓練された軽量で教師付きネットワークの機能を組み合わせたものである。
提案手法は89.2%のTop-1精度を実現し,強いゼロショット(65.0%)とMVのみ(66.5%)のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-21T14:02:38Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision
Models [40.40784209977589]
本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。
我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。
概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-10-04T18:00:06Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。