論文の概要: LAP-Net: Adaptive Features Sampling via Learning Action Progression for
Online Action Detection
- arxiv url: http://arxiv.org/abs/2011.07915v1
- Date: Mon, 16 Nov 2020 13:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:33:05.067906
- Title: LAP-Net: Adaptive Features Sampling via Learning Action Progression for
Online Action Detection
- Title(参考訳): LAP-Net:オンライン行動検出のための学習行動進行による適応的特徴サンプリング
- Authors: Sanqing Qu, Guang Chen, Dan Xu, Jinhu Dong, Fan Lu, Alois Knoll
- Abstract要約: アクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。
補足的特徴として、目に見えないが期待される将来のフレームの固定時間範囲を集約する手法が提案されている。
最適な補足的特徴の変動範囲を克服する適応的特徴サンプリング戦略を導入する。
- 参考スコア(独自算出の注目度): 13.205827952845201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection is a task with the aim of identifying ongoing actions
from streaming videos without any side information or access to future frames.
Recent methods proposed to aggregate fixed temporal ranges of invisible but
anticipated future frames representations as supplementary features and
achieved promising performance. They are based on the observation that human
beings often detect ongoing actions by contemplating the future vision
simultaneously. However, we observed that at different action progressions, the
optimal supplementary features should be obtained from distinct temporal ranges
instead of simply fixed future temporal ranges. To this end, we introduce an
adaptive features sampling strategy to overcome the mentioned variable-ranges
of optimal supplementary features. Specifically, in this paper, we propose a
novel Learning Action Progression Network termed LAP-Net, which integrates an
adaptive features sampling strategy. At each time step, this sampling strategy
first estimates current action progression and then decide what temporal ranges
should be used to aggregate the optimal supplementary features. We evaluated
our LAP-Net on three benchmark datasets, TVSeries, THUMOS-14 and HDD. The
extensive experiments demonstrate that with our adaptive feature sampling
strategy, the proposed LAP-Net can significantly outperform current
state-of-the-art methods with a large margin.
- Abstract(参考訳): オンラインアクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。
近年の手法では, 将来予測されるフレームの固定時間範囲を補足的特徴として集約し, 有望な性能を実現している。
それらは、人間はしばしば将来のビジョンを同時に考えながら、継続的な行動を検出するという観察に基づいている。
しかし, 異なる行動進行において, 最適な補足的特徴は, 単に将来の時間的範囲を固定するのではなく, 異なる時間的範囲から得られるべきである。
そこで本稿では,最適な補足的特徴の変数範囲を克服する適応的特徴サンプリング手法を提案する。
本稿では,適応的な特徴抽出戦略を統合した学習行動進行ネットワーク LAP-Net を提案する。
それぞれの時間ステップで、このサンプリング戦略は、まず現在のアクションの進行を推定し、次に最適な補足的な特徴を集約するためにどの時間範囲を使用するべきかを決定する。
我々は,3つのベンチマークデータセット,TVSeries,THUMOS-14,HDDでLAP-Netを評価した。
適応的特徴サンプリング戦略により,提案したLAP-Netは,最先端の手法よりも大きなマージンを持つことを示す。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。
フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks [14.046487518350792]
スパイキングニューラルネットワーク(SNN)は、スパーススパイク通信を通じてイベント駆動の操作を行う。
本稿では,Residual potential Dropout (RPD) と Spike-Aware Training (SAT) を導入する。
我々の方法では、Gen1データセットで4.4%のmAP改善が得られ、パラメータは38%減少し、3つのタイムステップしか必要としない。
論文 参考訳(メタデータ) (2024-03-19T09:34:11Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。