論文の概要: Adaptive Recursive Circle Framework for Fine-grained Action Recognition
- arxiv url: http://arxiv.org/abs/2107.11813v1
- Date: Sun, 25 Jul 2021 14:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:05:47.575883
- Title: Adaptive Recursive Circle Framework for Fine-grained Action Recognition
- Title(参考訳): 細粒度動作認識のための適応再帰的サークルフレームワーク
- Authors: Hanxi Lin, Xinxiao Wu, Jiebo Luo
- Abstract要約: ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。
既存のほとんどのメソッドは、純粋なフィードフォワード方式でレイヤの特徴を生成する。
本稿では,純粋なフィードフォワード層のための微細なデコレータであるAdaptive Recursive Circleフレームワークを提案する。
- 参考スコア(独自算出の注目度): 95.51097674917851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to model fine-grained spatial-temporal dynamics in videos has been a
challenging problem for action recognition. It requires learning deep and rich
features with superior distinctiveness for the subtle and abstract motions.
Most existing methods generate features of a layer in a pure feedforward
manner, where the information moves in one direction from inputs to outputs.
And they rely on stacking more layers to obtain more powerful features,
bringing extra non-negligible overheads. In this paper, we propose an Adaptive
Recursive Circle (ARC) framework, a fine-grained decorator for pure feedforward
layers. It inherits the operators and parameters of the original layer but is
slightly different in the use of those operators and parameters. Specifically,
the input of the layer is treated as an evolving state, and its update is
alternated with the feature generation. At each recursive step, the input state
is enriched by the previously generated features and the feature generation is
made with the newly updated input state. We hope the ARC framework can
facilitate fine-grained action recognition by introducing deeply refined
features and multi-scale receptive fields at a low cost. Significant
improvements over feedforward baselines are observed on several benchmarks. For
example, an ARC-equipped TSM-ResNet18 outperforms TSM-ResNet50 with 48% fewer
FLOPs and 52% model parameters on Something-Something V1 and Diving48.
- Abstract(参考訳): ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。
微妙で抽象的な動きに対して優れた特徴を持つ深遠で豊かな特徴を学ぶ必要がある。
ほとんどの既存手法は、情報を入力から出力へと一方向に移動する純粋なフィードフォワード方式で層の特徴を生成する。
さらに、より強力な機能を得るために、より多くのレイヤを積み重ねることに依存しています。
本稿では、純粋なフィードフォワード層のためのきめ細かいデコレータである適応再帰循環(ARC)フレームワークを提案する。
元の層の演算子とパラメータを継承するが、それらの演算子とパラメータの使用ではわずかに異なる。
具体的には、レイヤの入力を進化状態として処理し、その更新を機能生成と交互に行う。
各再帰ステップにおいて、予め生成された特徴により入力状態を豊かにし、新たに更新された入力状態を特徴生成する。
ARCフレームワークは,高精細な特徴とマルチスケールの受容場を低コストで導入することにより,よりきめ細かな動作認識を容易にすることを期待する。
いくつかのベンチマークではフィードフォワードベースラインに対する重要な改善が観察されている。
例えば、arc搭載のtsm-resnet18は、48%のフロップと52%のモデルパラメータを持つtsm-resnet50よりも優れている。
関連論文リスト
- Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - RecursiveDet: End-to-End Region-based Recursive Object Detection [19.799892459080485]
Sparse R-CNNのような領域ベースのオブジェクト検出器は通常、複数のカスケード境界ボックスデコードステージを持つ。
本稿では,復号段階の一般的な設定は実際には冗長であることを示す。
RecusiveDetは、より少ないモデルパラメータで明らかなパフォーマンス向上を達成することができる。
論文 参考訳(メタデータ) (2023-07-25T16:22:58Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。
実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-12-07T08:16:32Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。