論文の概要: LAP-Net: Adaptive Features Sampling via Learning Action Progression for
Online Action Detection
- arxiv url: http://arxiv.org/abs/2011.07915v1
- Date: Mon, 16 Nov 2020 13:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:33:05.067906
- Title: LAP-Net: Adaptive Features Sampling via Learning Action Progression for
Online Action Detection
- Title(参考訳): LAP-Net:オンライン行動検出のための学習行動進行による適応的特徴サンプリング
- Authors: Sanqing Qu, Guang Chen, Dan Xu, Jinhu Dong, Fan Lu, Alois Knoll
- Abstract要約: アクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。
補足的特徴として、目に見えないが期待される将来のフレームの固定時間範囲を集約する手法が提案されている。
最適な補足的特徴の変動範囲を克服する適応的特徴サンプリング戦略を導入する。
- 参考スコア(独自算出の注目度): 13.205827952845201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection is a task with the aim of identifying ongoing actions
from streaming videos without any side information or access to future frames.
Recent methods proposed to aggregate fixed temporal ranges of invisible but
anticipated future frames representations as supplementary features and
achieved promising performance. They are based on the observation that human
beings often detect ongoing actions by contemplating the future vision
simultaneously. However, we observed that at different action progressions, the
optimal supplementary features should be obtained from distinct temporal ranges
instead of simply fixed future temporal ranges. To this end, we introduce an
adaptive features sampling strategy to overcome the mentioned variable-ranges
of optimal supplementary features. Specifically, in this paper, we propose a
novel Learning Action Progression Network termed LAP-Net, which integrates an
adaptive features sampling strategy. At each time step, this sampling strategy
first estimates current action progression and then decide what temporal ranges
should be used to aggregate the optimal supplementary features. We evaluated
our LAP-Net on three benchmark datasets, TVSeries, THUMOS-14 and HDD. The
extensive experiments demonstrate that with our adaptive feature sampling
strategy, the proposed LAP-Net can significantly outperform current
state-of-the-art methods with a large margin.
- Abstract(参考訳): オンラインアクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。
近年の手法では, 将来予測されるフレームの固定時間範囲を補足的特徴として集約し, 有望な性能を実現している。
それらは、人間はしばしば将来のビジョンを同時に考えながら、継続的な行動を検出するという観察に基づいている。
しかし, 異なる行動進行において, 最適な補足的特徴は, 単に将来の時間的範囲を固定するのではなく, 異なる時間的範囲から得られるべきである。
そこで本稿では,最適な補足的特徴の変数範囲を克服する適応的特徴サンプリング手法を提案する。
本稿では,適応的な特徴抽出戦略を統合した学習行動進行ネットワーク LAP-Net を提案する。
それぞれの時間ステップで、このサンプリング戦略は、まず現在のアクションの進行を推定し、次に最適な補足的な特徴を集約するためにどの時間範囲を使用するべきかを決定する。
我々は,3つのベンチマークデータセット,TVSeries,THUMOS-14,HDDでLAP-Netを評価した。
適応的特徴サンプリング戦略により,提案したLAP-Netは,最先端の手法よりも大きなマージンを持つことを示す。
関連論文リスト
- Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - MVFuseNet: Improving End-to-End Object Detection and Motion Forecasting
through Multi-View Fusion of LiDAR Data [4.8061970432391785]
We propose itMVFusenet, a novel end-to-end method for joint object detection motion forecasting from a temporal sequence of LiDAR data。
2つの大規模自動運転データセットの検出と動作予測のタスクに対する当社のマルチビューアプローチの利点を示します。
論文 参考訳(メタデータ) (2021-04-21T21:29:08Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。