論文の概要: DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation
- arxiv url: http://arxiv.org/abs/2304.02110v1
- Date: Tue, 4 Apr 2023 20:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:05:08.842711
- Title: DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation
- Title(参考訳): DIR-AS:行動セグメンテーションのための個人識別と時間推論の分離
- Authors: Peiyao Wang, Haibin Ling
- Abstract要約: 完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
- 参考スコア(独自算出の注目度): 84.78383981697377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully supervised action segmentation works on frame-wise action recognition
with dense annotations and often suffers from the over-segmentation issue.
Existing works have proposed a variety of solutions such as boundary-aware
networks, multi-stage refinement, and temporal smoothness losses. However, most
of them take advantage of frame-wise supervision, which cannot effectively
tackle the evaluation metrics with different granularities. In this paper, for
the desirable large receptive field, we first develop a novel local-global
attention mechanism with temporal pyramid dilation and temporal pyramid pooling
for efficient multi-scale attention. Then we decouple two inherent goals in
action segmentation, ie, (1) individual identification solved by frame-wise
supervision, and (2) temporal reasoning tackled by action set prediction.
Afterward, an action alignment module fuses these different granularity
predictions, leading to more accurate and smoother action segmentation. We
achieve state-of-the-art accuracy, eg, 82.8% (+2.6%) on GTEA and 74.7% (+1.2%)
on Breakfast, which demonstrates the effectiveness of our proposed method,
accompanied by extensive ablation studies. The code will be made available
later.
- Abstract(参考訳): 完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰セグメンテーションの問題に悩まされる。
既存の研究は、境界対応ネットワーク、多段階改良、時間的滑らかさの損失など、様々なソリューションを提案している。
しかし,そのほとんどは,粒度の異なる評価基準を効果的に取り組めない,フレーム単位での監督の利点を生かしている。
本稿では,まず,より効率的なマルチスケール注意のための時間的ピラミッド拡張と時間的ピラミッドプーリングを備えた,新しい局所的グローバルアテンション機構を考案する。
次に,アクションセグメンテーションにおける2つの固有の目標,すなわち(1)フレームワイズによる個人識別と(2)アクションセット予測による時間的推論を分離する。
その後、アクションアライメントモジュールはこれらの異なる粒度予測を融合させ、より正確でスムーズなアクションセグメンテーションをもたらす。
我々は,GTEAでは82.8%(+2.6%),Breakfastでは74.7%(+1.2%)の精度を達成し,広範囲なアブレーション研究とともに提案手法の有効性を示した。
コードは後で利用可能になる。
関連論文リスト
- Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Alleviating Over-segmentation Errors by Detecting Action Boundaries [14.089070456051488]
本稿では、時間的行動分節タスク、すなわち行動分節フレームワーク(ASRF)のための効果的なフレームワークを提案する。
我々のフレームワークは3つの挑戦的なデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2020-07-14T07:20:14Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文 参考訳(メタデータ) (2020-02-18T03:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。