論文の概要: Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing
- arxiv url: http://arxiv.org/abs/2105.14158v1
- Date: Sat, 29 May 2021 00:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 22:52:24.769271
- Title: Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing
- Title(参考訳): 自己教師付き特徴学習と共起解析による教師なし行動セグメンテーション
- Authors: Zhe Wang, Hao Chen, Xinyu Li, Chunhui Liu, Yuanjun Xiong, Joseph
Tighe, Charless Fowlkes
- Abstract要約: 時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
- 参考スコア(独自算出の注目度): 32.66011849112014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action segmentation is a task to classify each frame in the video
with an action label. However, it is quite expensive to annotate every frame in
a large corpus of videos to construct a comprehensive supervised training
dataset. Thus in this work we explore a self-supervised method that operates on
a corpus of unlabeled videos and predicts a likely set of temporal segments
across the videos. To do this we leverage self-supervised video classification
approaches to perform unsupervised feature extraction. On top of these features
we develop CAP, a novel co-occurrence action parsing algorithm that can not
only capture the correlation among sub-actions underlying the structure of
activities, but also estimate the temporal trajectory of the sub-actions in an
accurate and general way. We evaluate on both classic datasets (Breakfast,
50Salads) and emerging fine-grained action datasets (FineGym) with more complex
activity structures and similar sub-actions. Results show that our method
achieves state-of-the-art performance on all three datasets with up to 22\%
improvement, and can even outperform some weakly-supervised approaches,
demonstrating its effectiveness and generalizability.
- Abstract(参考訳): 時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
しかし、大規模なビデオコーパス内のすべてのフレームに注釈を付けることで、包括的な教師付きトレーニングデータセットを構築するのは非常にコストがかかる。
そこで本研究では,ラベルのないビデオのコーパス上で動作し,ビデオ全体の時間的セグメント集合を予測できる自己教師あり手法について検討する。
これを実現するために,自己教師付きビデオ分類アプローチを活用して,教師なし特徴抽出を行う。
これらの特徴に加えて,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間軌道を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
従来のデータセット(Breakfast, 50Salads)と、より複雑なアクティビティ構造と類似のサブアクションを持つよりきめ細かなアクションデータセット(FineGym)の両方を評価した。
その結果,提案手法は最大22倍の精度で3つのデータセットの最先端性能を達成し,その有効性と一般化性を示すとともに,弱教師付きアプローチよりも優れていることがわかった。
関連論文リスト
- TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z) - Learning to Segment Actions from Observation and Narration [56.99443314542545]
映像中の動作セグメント化に対して,ナレーションによって誘導されるタスク構造の生成セグメントモデルを適用する。
我々は、トレーニング中にアクションラベルが知られていない、教師なしで弱い教師付き設定に焦点を当てる。
論文 参考訳(メタデータ) (2020-05-07T18:03:57Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z) - SCT: Set Constrained Temporal Transformer for Set Supervised Action
Segmentation [22.887397951846353]
弱教師付きアプローチは、弱ラベル付きビデオから時間的アクションセグメンテーションを学ぶことを目的としている。
このようなデータに基づいてエンドツーエンドにトレーニング可能なアプローチを提案する。
提案手法は,最先端の結果が得られる3つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-03-31T14:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。