論文の概要: Action Shuffle Alternating Learning for Unsupervised Action Segmentation
- arxiv url: http://arxiv.org/abs/2104.02116v1
- Date: Mon, 5 Apr 2021 18:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:11:40.075523
- Title: Action Shuffle Alternating Learning for Unsupervised Action Segmentation
- Title(参考訳): 教師なしアクションセグメンテーションのためのアクションシャッフル代替学習
- Authors: Jun Li, Sinisa Todorovic
- Abstract要約: 我々は、正および負のアクションシーケンスを認識するためにRNNを訓練し、RNNの隠蔽層を新しいアクションレベルの特徴埋め込みとして捉えた。
動作の監視ができないため、アクション長を明示的にモデル化したHMMを指定し、ViterbiアルゴリズムによるMAPアクションセグメンテーションを推論する。
結果として生じるアクションセグメンテーションは、アクションレベルの機能埋め込みとHMMの更新を推定するための疑似根拠の真実として使用されます。
- 参考スコア(独自算出の注目度): 38.32743770719661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses unsupervised action segmentation. Prior work captures
the frame-level temporal structure of videos by a feature embedding that
encodes time locations of frames in the video. We advance prior work with a new
self-supervised learning (SSL) of a feature embedding that accounts for both
frame- and action-level structure of videos. Our SSL trains an RNN to recognize
positive and negative action sequences, and the RNN's hidden layer is taken as
our new action-level feature embedding. The positive and negative sequences
consist of action segments sampled from videos, where in the former the sampled
action segments respect their time ordering in the video, and in the latter
they are shuffled. As supervision of actions is not available and our SSL
requires access to action segments, we specify an HMM that explicitly models
action lengths, and infer a MAP action segmentation with the Viterbi algorithm.
The resulting action segmentation is used as pseudo-ground truth for estimating
our action-level feature embedding and updating the HMM. We alternate the above
steps within the Generalized EM framework, which ensures convergence. Our
evaluation on the Breakfast, YouTube Instructions, and 50Salads datasets gives
superior results to those of the state of the art.
- Abstract(参考訳): 本稿では教師なしアクションセグメンテーションについて述べる。
先行作業は、ビデオ内のフレームの時間位置をエンコードする機能埋め込みによって、ビデオのフレームレベルの時間構造をキャプチャする。
ビデオのフレーム構造とアクションレベルの構造の両方を考慮に入れた,新しい自己教師付き学習(ssl)による事前作業を進める。
SSLはRNNをトレーニングして、正と負のアクションシーケンスを認識します。
正と負のシーケンスはビデオからサンプリングされたアクションセグメントで構成され、前者ではサンプルされたアクションセグメントはビデオ内の時間順序を尊重し、後者ではシャッフルされる。
アクションの監視ができず、SSLはアクションセグメントへのアクセスを必要とするため、アクションの長さを明示的にモデル化し、ViterbiアルゴリズムでMAPアクションセグメントを推測するHMMを指定する。
結果として得られたアクションセグメンテーションは、アクションレベルの特徴の埋め込みとHMMの更新を推定するために擬似地上真理として使用される。
我々は、収束を保証する一般化EMフレームワーク内で上記のステップを交互に行う。
Breakfast、YouTube Instructions、50Saladsのデータセットに対する我々の評価は、最先端技術よりも優れた結果をもたらす。
関連論文リスト
- Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Anchor-Constrained Viterbi for Set-Supervised Action Segmentation [38.32743770719661]
本論文では,トレーニングにおける弱い監督下でのアクションセグメンテーションについて述べる。
ビデオフレームのラベル付けには多層パーセプトロン(MLP)をベースとしたHMM(Hidden Markov Model)を用いる。
テストでは、トレーニングで見られるアクションセットのモンテカルロサンプリングを使用して、アクションの候補時間シーケンスを生成する。
論文 参考訳(メタデータ) (2021-04-05T18:50:21Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Set-Constrained Viterbi for Set-Supervised Action Segmentation [40.22433538226469]
本論文は、弱い教師付きアクションセグメンテーションについて述べる。
基礎的な真実は、トレーニングビデオに存在する一連のアクションのみを特定するが、真の時間的順序は示さない。
我々は、アクションクラスとその時間的長さの共起を考慮に入れたHMMを指定することで、このフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-27T05:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。