論文の概要: MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation
- arxiv url: http://arxiv.org/abs/2006.09220v2
- Date: Wed, 2 Sep 2020 10:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 21:04:50.818238
- Title: MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation
- Title(参考訳): MS-TCN++:アクションセグメンテーションのためのマルチステージ時間畳み込みネットワーク
- Authors: Shijie Li, Yazan Abu Farha, Yun Liu, Ming-Ming Cheng, Juergen Gall
- Abstract要約: 本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 87.16030562892537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of deep learning in classifying short trimmed videos, more
attention has been focused on temporally segmenting and classifying activities
in long untrimmed videos. State-of-the-art approaches for action segmentation
utilize several layers of temporal convolution and temporal pooling. Despite
the capabilities of these approaches in capturing temporal dependencies, their
predictions suffer from over-segmentation errors. In this paper, we propose a
multi-stage architecture for the temporal action segmentation task that
overcomes the limitations of the previous approaches. The first stage generates
an initial prediction that is refined by the next ones. In each stage we stack
several layers of dilated temporal convolutions covering a large receptive
field with few parameters. While this architecture already performs well, lower
layers still suffer from a small receptive field. To address this limitation,
we propose a dual dilated layer that combines both large and small receptive
fields. We further decouple the design of the first stage from the refining
stages to address the different requirements of these stages. Extensive
evaluation shows the effectiveness of the proposed model in capturing
long-range dependencies and recognizing action segments. Our models achieve
state-of-the-art results on three datasets: 50Salads, Georgia Tech Egocentric
Activities (GTEA), and the Breakfast dataset.
- Abstract(参考訳): 短いトリミングビデオの分類におけるディープラーニングの成功により、長い未トリミングビデオの時間的セグメンテーションと分類活動に注目が向けられている。
アクションセグメンテーションの最先端のアプローチは、時間的畳み込みと時間的プーリングの複数の層を利用する。
時間的依存関係をキャプチャするこれらのアプローチの能力にもかかわらず、予測は過剰なセグメンテーションエラーに悩まされる。
本稿では,従来の手法の限界を克服した時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
各段階において、ほとんどパラメータを持たない大きな受容領域をカバーする拡張時間畳み込みの層を積み重ねる。
このアーキテクチャはすでにうまく機能しているが、低層層はまだ小さな受容領域に苦しんでいる。
この制限に対処するため、大小の両方の受容場を組み合わせた二重拡張層を提案する。
さらに、第1段階の設計を精製段階から分離し、これらの段階の異なる要件に対処する。
広範囲な評価は、長距離依存を捕捉し、アクションセグメントを認識する上で、提案モデルの有効性を示す。
当社のモデルは,50salads, georgia tech egocentric activities (gtea),the breakfast datasetの3つのデータセットで最先端の結果を得る。
関連論文リスト
- BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeleton-Based Action Segmentation with Multi-Stage Spatial-Temporal
Graph Convolutional Neural Networks [0.5156484100374059]
最先端のアクションセグメンテーションアプローチは、時間的畳み込みの複数の段階を使用する。
多段階時空間グラフ畳み込みニューラルネットワーク(MS-GCN)を提案する。
時間的畳み込みの初期段階を空間的時間的グラフ畳み込みに置き換え、関節の空間的構成をよりよく活用する。
論文 参考訳(メタデータ) (2022-02-03T17:42:04Z) - ASFormer: Transformer for Action Segmentation [9.509416095106493]
本稿では,アクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルASFormerを提案する。
信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。
我々は、長い入力シーケンスを効率的に処理する事前定義された階層表現パターンを適用した。
論文 参考訳(メタデータ) (2021-10-16T13:07:20Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。