論文の概要: LSTC: Boosting Atomic Action Detection with Long-Short-Term Context
- arxiv url: http://arxiv.org/abs/2110.09819v1
- Date: Tue, 19 Oct 2021 10:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 21:04:49.419379
- Title: LSTC: Boosting Atomic Action Detection with Long-Short-Term Context
- Title(参考訳): LSTC:長期コンテキストによる原子行動検出の高速化
- Authors: Yuxi Li, Boshen Zhang, Jian Li, Yabiao Wang, Weiyao Lin, Chengjie
Wang, Jilin Li, Feiyue Huang
- Abstract要約: 我々は行動認識パイプラインを短期的・長期的依存に分解する。
本設計では, 局所集約分枝を用いて, 密集した情報的短期的手がかりを収集する。
両方のブランチは、コンテキスト固有のアクションを独立して予測し、結果が最後にマージされる。
- 参考スコア(独自算出の注目度): 60.60267767456306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we place the atomic action detection problem into a Long-Short
Term Context (LSTC) to analyze how the temporal reliance among video signals
affect the action detection results. To do this, we decompose the action
recognition pipeline into short-term and long-term reliance, in terms of the
hypothesis that the two kinds of context are conditionally independent given
the objective action instance. Within our design, a local aggregation branch is
utilized to gather dense and informative short-term cues, while a high order
long-term inference branch is designed to reason the objective action class
from high-order interaction between actor and other person or person pairs.
Both branches independently predict the context-specific actions and the
results are merged in the end. We demonstrate that both temporal grains are
beneficial to atomic action recognition. On the mainstream benchmarks of atomic
action detection, our design can bring significant performance gain from the
existing state-of-the-art pipeline. The code of this project can be found at
[this url](https://github.com/TencentYoutuResearch/ActionDetection-LSTC)
- Abstract(参考訳): 本稿では,映像信号間の時間的依存が動作検出に与える影響を分析するために,原子行動検出問題をLong-Short Term Context (LSTC) に配置する。
そこで本研究では,行動認識パイプラインを短期的・長期的信頼に分解し,目的の行動インスタンスから2種類の文脈が条件的に独立であるという仮説を導出する。
本設計では, 局所集約分枝を用いて, 高密度かつ情報的な短期的手がかりを収集する一方, 高次長期推論分枝は, 客行動クラスを, アクタと他者または対の高次相互作用から推論するように設計する。
どちらのブランチも独立してコンテキスト固有のアクションを予測し、結果が最後にマージされます。
いずれの時間的粒も原子の作用認識に有益であることを示す。
アトミックアクション検出の主流ベンチマークでは、我々の設計は既存の最先端パイプラインから大きなパフォーマンス向上をもたらす可能性がある。
このプロジェクトのコードは[ this url](https://github.com/TencentYoutuResearch/ActionDetection-LSTC)で見ることができる。
関連論文リスト
- Introducing Gating and Context into Temporal Action Detection [0.8987776881291144]
時間的行動検出(TAD)は、動作の重なり合いと動作の変動が原因で依然として困難である。
最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。
本稿では,軽量かつ効果的な操作による特徴抽出プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-06T11:52:42Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。