Fugu-MT 論文翻訳(概要): LAP-Net: Adaptive Features Sampling via Learning Action Progression for Online Action Detection

論文の概要: LAP-Net: Adaptive Features Sampling via Learning Action Progression for Online Action Detection

arxiv url: http://arxiv.org/abs/2011.07915v1
Date: Mon, 16 Nov 2020 13:08:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-25 00:33:05.067906
Title: LAP-Net: Adaptive Features Sampling via Learning Action Progression for Online Action Detection
Title（参考訳）: LAP-Net:オンライン行動検出のための学習行動進行による適応的特徴サンプリング
Authors: Sanqing Qu, Guang Chen, Dan Xu, Jinhu Dong, Fan Lu, Alois Knoll
Abstract要約: アクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。補足的特徴として、目に見えないが期待される将来のフレームの固定時間範囲を集約する手法が提案されている。最適な補足的特徴の変動範囲を克服する適応的特徴サンプリング戦略を導入する。
参考スコア（独自算出の注目度）: 13.205827952845201
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online action detection is a task with the aim of identifying ongoing actions from streaming videos without any side information or access to future frames. Recent methods proposed to aggregate fixed temporal ranges of invisible but anticipated future frames representations as supplementary features and achieved promising performance. They are based on the observation that human beings often detect ongoing actions by contemplating the future vision simultaneously. However, we observed that at different action progressions, the optimal supplementary features should be obtained from distinct temporal ranges instead of simply fixed future temporal ranges. To this end, we introduce an adaptive features sampling strategy to overcome the mentioned variable-ranges of optimal supplementary features. Specifically, in this paper, we propose a novel Learning Action Progression Network termed LAP-Net, which integrates an adaptive features sampling strategy. At each time step, this sampling strategy first estimates current action progression and then decide what temporal ranges should be used to aggregate the optimal supplementary features. We evaluated our LAP-Net on three benchmark datasets, TVSeries, THUMOS-14 and HDD. The extensive experiments demonstrate that with our adaptive feature sampling strategy, the proposed LAP-Net can significantly outperform current state-of-the-art methods with a large margin.
Abstract（参考訳）: オンラインアクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。近年の手法では, 将来予測されるフレームの固定時間範囲を補足的特徴として集約し, 有望な性能を実現している。それらは、人間はしばしば将来のビジョンを同時に考えながら、継続的な行動を検出するという観察に基づいている。しかし, 異なる行動進行において, 最適な補足的特徴は, 単に将来の時間的範囲を固定するのではなく, 異なる時間的範囲から得られるべきである。そこで本稿では,最適な補足的特徴の変数範囲を克服する適応的特徴サンプリング手法を提案する。本稿では,適応的な特徴抽出戦略を統合した学習行動進行ネットワーク LAP-Net を提案する。それぞれの時間ステップで、このサンプリング戦略は、まず現在のアクションの進行を推定し、次に最適な補足的な特徴を集約するためにどの時間範囲を使用するべきかを決定する。我々は,3つのベンチマークデータセット,TVSeries,THUMOS-14,HDDでLAP-Netを評価した。適応的特徴サンプリング戦略により,提案したLAP-Netは,最先端の手法よりも大きなマージンを持つことを示す。

関連論文リスト

Test-Time Adaptation for Generalizable Task Progress Estimation [54.938128496934695]
専門的な視覚的軌跡とその自然言語タスク記述に基づいてモデルを訓練するための勾配に基づくメタラーニング戦略を導入する。テスト時間適応法は, 単一学習環境から多様なアウト・オブ・ディストリビューションタスク, 環境, 実施形態へ一般化する。
論文参考訳（メタデータ） (2025-06-11T18:05:33Z)
Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。悲惨な忘れ物はモデルパフォーマンスを著しく損なう本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2025-01-21T13:33:45Z)
Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。 Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文参考訳（メタデータ） (2024-10-31T14:16:56Z)
Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。 5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文参考訳（メタデータ） (2024-08-22T15:13:27Z)
From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。 ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-08-05T18:38:29Z)
Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文参考訳（メタデータ） (2024-07-26T17:51:58Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks [14.046487518350792]
スパイキングニューラルネットワーク(SNN)は、スパーススパイク通信を通じてイベント駆動の操作を行う。本稿では,Residual potential Dropout (RPD) と Spike-Aware Training (SAT) を導入する。我々の方法では、Gen1データセットで4.4%のmAP改善が得られ、パラメータは38%減少し、3つのタイムステップしか必要としない。
論文参考訳（メタデータ） (2024-03-19T09:34:11Z)
Embedded feature selection in LSTM networks with multi-objective evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。本手法はLSTMの重みと偏りを分割的に最適化する。イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文参考訳（メタデータ） (2023-12-29T08:42:10Z)
Temporal Context Aggregation Network for Temporal Action Proposal Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。 TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文参考訳（メタデータ） (2021-03-24T12:34:49Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
TTPP: Temporal Transformer with Progressive Prediction for Efficient Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文参考訳（メタデータ） (2020-03-07T07:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。