論文の概要: Temporal Action Localization Using Gated Recurrent Units
- arxiv url: http://arxiv.org/abs/2108.03375v1
- Date: Sat, 7 Aug 2021 06:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 03:21:21.198308
- Title: Temporal Action Localization Using Gated Recurrent Units
- Title(参考訳): Gated Recurrent Units を用いた時間行動定位
- Authors: Hassan Keshvari Khojasteh, Hoda Mohammadzade, Hamid Behroozi
- Abstract要約: 本稿では, Gated Recurrent Unit (GRU) に基づく新しいネットワークと, TALタスクのための2つの新しい後処理手法を提案する。
具体的には、GRU-Splittedモデルと呼ばれる、GRUの出力層に対する新しい設計を提案する。
提案手法の性能を最先端手法と比較して評価する。
- 参考スコア(独自算出の注目度): 6.091096843566857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Localization (TAL) task in which the aim is to predict the
start and end of each action and its class label has many applications in the
real world. But due to its complexity, researchers have not reached great
results compared to the action recognition task. The complexity is related to
predicting precise start and end times for different actions in any video. In
this paper, we propose a new network based on Gated Recurrent Unit (GRU) and
two novel post-processing ideas for TAL task. Specifically, we propose a new
design for the output layer of the GRU resulting in the so-called GRU-Splitted
model. Moreover, linear interpolation is used to generate the action proposals
with precise start and end times. Finally, to rank the generated proposals
appropriately, we use a Learn to Rank (LTR) approach. We evaluated the
performance of the proposed method on Thumos14 dataset. Results show the
superiority of the performance of the proposed method compared to
state-of-the-art. Especially in the mean Average Precision (mAP) metric at
Intersection over Union (IoU) 0.7, we get 27.52% which is 5.12% better than
that of state-of-the-art methods.
- Abstract(参考訳): 時間的行動ローカライゼーション(TAL)タスクは、各アクションの開始と終了を予測することを目的としており、そのクラスラベルは現実世界に多くの応用がある。
しかし、その複雑さのため、研究者はアクション認識タスクと比較して大きな成果を得ていない。
この複雑さは、ビデオ内のさまざまなアクションの正確な開始時間と終了時間の予測に関連している。
本稿では, Gated Recurrent Unit (GRU) に基づく新しいネットワークと, TALタスクのための2つの新しい後処理手法を提案する。
具体的には、GRU-Splittedモデルと呼ばれる、GRUの出力層に対する新しい設計を提案する。
さらに、線形補間を用いて、正確な開始時間と終了時間でアクションプロポーザルを生成する。
最後に、生成された提案を適切にランク付けするために、Learning to Rank (LTR)アプローチを使用します。
thumos14データセットにおける提案手法の性能評価を行った。
その結果,提案手法の性能は最先端技術に比べて優れていた。
特に、Intersection over Union (IoU) 0.7における平均平均精度(mAP)測定では、27.52%が最先端の手法よりも5.12%良い。
関連論文リスト
- Towards Completeness: A Generalizable Action Proposal Generator for Zero-Shot Temporal Action Localization [31.82121743586165]
Generalizable Action Proposal Generator (GAP)は、クエリベースのアーキテクチャで構築され、提案レベルの目的でトレーニングされる。
本アーキテクチャに基づいて,アクションのカテゴリに依存しない動的情報を強化するために,行動認識識別損失を提案する。
実験の結果,我々のGAPは2つのZSTALベンチマークで最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-25T09:07:06Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - PoseRAC: Pose Saliency Transformer for Repetitive Action Counting [56.34379680390869]
冗長なフレームではなく,2つのサレントポーズのみを用いて,各アクションを効率よく表現するPose Saliency Representationを導入する。
また,この表現に基づいて,最先端のパフォーマンスを実現するPoseRACについても紹介する。
当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。
論文 参考訳(メタデータ) (2023-03-15T08:51:17Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。