論文の概要: An Efficient Framework for Few-shot Skeleton-based Temporal Action
Segmentation
- arxiv url: http://arxiv.org/abs/2207.09925v1
- Date: Wed, 20 Jul 2022 14:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:49:25.710820
- Title: An Efficient Framework for Few-shot Skeleton-based Temporal Action
Segmentation
- Title(参考訳): Few-shot Skeleton-based Temporal Action Segmentation のための効率的なフレームワーク
- Authors: Leiyang Xu, Qiang Wang, Xiaotian Lin, Lin Yuan
- Abstract要約: テンポラルアクションセグメンテーション(TAS)は、長いアントリムされたアクションシーケンスのアクションを分類し、特定することを目的としている。
本研究では,データ拡張法と改良モデルを含む,数発の骨格型TASの効率的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.610414185789651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation (TAS) aims to classify and locate actions in the
long untrimmed action sequence. With the success of deep learning, many deep
models for action segmentation have emerged. However, few-shot TAS is still a
challenging problem. This study proposes an efficient framework for the
few-shot skeleton-based TAS, including a data augmentation method and an
improved model. The data augmentation approach based on motion interpolation is
presented here to solve the problem of insufficient data, and can increase the
number of samples significantly by synthesizing action sequences. Besides, we
concatenate a Connectionist Temporal Classification (CTC) layer with a network
designed for skeleton-based TAS to obtain an optimized model. Leveraging CTC
can enhance the temporal alignment between prediction and ground truth and
further improve the segment-wise metrics of segmentation results. Extensive
experiments on both public and self-constructed datasets, including two
small-scale datasets and one large-scale dataset, show the effectiveness of two
proposed methods in improving the performance of the few-shot skeleton-based
TAS task.
- Abstract(参考訳): テンポラルアクションセグメンテーション(TAS)は、長いアントリムされたアクションシーケンスのアクションを分類し、特定することを目的としている。
ディープラーニングの成功により、アクションセグメンテーションのための深いモデルが数多く登場している。
しかし、一部のTASは依然として難しい問題である。
本研究では,データ拡張法と改良モデルを含む,数発の骨格型TASの効率的なフレームワークを提案する。
本稿では,動きの補間に基づくデータ拡張手法を提案し,データ不足の問題を解決するとともに,動作シーケンスを合成することでサンプル数を大幅に増加させることができる。
さらに,接続主義時相分類(ctc)層をスケルトンベースtas用に設計されたネットワークに結合し,最適化モデルを得る。
CTCを活用することで、予測と真実の時間的整合性を高め、セグメンテーション結果のセグメンテーションワイドメトリックスを改善することができる。
2つの小規模データセットと1つの大規模データセットを含む、パブリックデータセットとセルフコンストラクテッドデータセットの両方に関する広範囲な実験により、2つの提案手法が、スケルトンベースのtasタスクの性能を向上させる効果を示している。
関連論文リスト
- Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning [5.587301322663445]
我々は、強化学習(SVTAS-RL)を用いたエンド・ツー・エンドのストリーミングビデオ時間的動作分割モデルを提案する。
SVTAS-RLモデルは既存のSTASモデルを大幅に上回り、同じ評価基準の下で複数のデータセット上で最先端のTASモデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-09-27T14:30:34Z) - Body Segmentation Using Multi-task Learning [1.0832844764942349]
本稿では,3つのタスクを伴い,人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。
提案された--Pose--DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。
モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
論文 参考訳(メタデータ) (2022-12-13T13:06:21Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。