論文の概要: Interpretable Deep Feature Propagation for Early Action Recognition
- arxiv url: http://arxiv.org/abs/2107.05122v1
- Date: Sun, 11 Jul 2021 19:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 01:20:32.208567
- Title: Interpretable Deep Feature Propagation for Early Action Recognition
- Title(参考訳): 早期行動認識のための解釈可能なDeep Feature Propagation
- Authors: He Zhao, Richard P. Wildes
- Abstract要約: 本研究では,空間的特徴空間における行動パターンの時間的変化を解明し,行動予測に対処する。
我々は、空間的レイアウトを維持しながら、生データからの抽象化を可能にする中間層ConvNet機能で作業する。
我々はKalmanフィルタを用いてエラーのビルドと予測開始時刻の統一に対処する。
- 参考スコア(独自算出の注目度): 39.966828592322315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early action recognition (action prediction) from limited preliminary
observations plays a critical role for streaming vision systems that demand
real-time inference, as video actions often possess elongated temporal spans
which cause undesired latency. In this study, we address action prediction by
investigating how action patterns evolve over time in a spatial feature space.
There are three key components to our system. First, we work with
intermediate-layer ConvNet features, which allow for abstraction from raw data,
while retaining spatial layout. Second, instead of propagating features per se,
we propagate their residuals across time, which allows for a compact
representation that reduces redundancy. Third, we employ a Kalman filter to
combat error build-up and unify across prediction start times. Extensive
experimental results on multiple benchmarks show that our approach leads to
competitive performance in action prediction. Notably, we investigate the
learned components of our system to shed light on their otherwise opaque
natures in two ways. First, we document that our learned feature propagation
module works as a spatial shifting mechanism under convolution to propagate
current observations into the future. Thus, it captures flow-based image motion
information. Second, the learned Kalman filter adaptively updates prior
estimation to aid the sequence learning process.
- Abstract(参考訳): 限られた予備観測からの初期アクション認識(アクション予測)は、リアルタイムな推論を必要とするストリーミング視覚システムにとって重要な役割を担っている。
本研究では,空間的特徴空間における行動パターンの時間的変化を解明し,行動予測に対処する。
私たちのシステムには3つの重要なコンポーネントがあります。
まず、空間レイアウトを維持しながら、生データからの抽象化を可能にする中間層convnet機能を扱う。
第二に、各特徴を伝播するのではなく、その残余を時間にわたって伝播し、冗長性を減少させるコンパクトな表現を可能にします。
第3に、エラーのビルドと予測開始時間の統一にKalmanフィルタを使用します。
複数のベンチマークでの大規模な実験結果から,本手法は動作予測における競合性能をもたらすことが示された。
特筆すべきは,我々のシステムの学習した構成要素を,その不透明な性質を2つの方法で照らすことである。
まず,我々の学習した特徴伝達モジュールが畳み込み下での空間シフト機構として機能し,現在の観測を未来に伝播させることを示す。
これにより、フローベースの画像動き情報をキャプチャする。
第2に,学習したカルマンフィルタは事前推定を適応的に更新し,シーケンス学習を支援する。
関連論文リスト
- Learning Temporal Cues by Predicting Objects Move for Multi-camera 3D Object Detection [9.053936905556204]
本稿では,2分岐ネットワークからなるDAP (Detection After Prediction) モデルを提案する。
分岐(i)から現在のオブジェクトを予測する特徴は、予測知識を伝達するために分岐(ii)に融合される。
私たちのモデルはプラグイン・アンド・プレイで使用することができ、一貫したパフォーマンス向上を示します。
論文 参考訳(メタデータ) (2024-04-02T02:20:47Z) - STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow [5.476991379461233]
両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。
提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T04:56:10Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。