論文の概要: TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering
- arxiv url: http://arxiv.org/abs/2303.05166v1
- Date: Thu, 9 Mar 2023 10:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:18:22.272329
- Title: TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering
- Title(参考訳): TAEC: 時間認識埋め込みとクラスタリングによる教師なしアクションセグメンテーション
- Authors: Wei Lin, Anna Kukleva, Horst Possegger, Hilde Kuehne, Horst Bischof
- Abstract要約: 本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
- 参考スコア(独自算出の注目度): 27.52568444236988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation in untrimmed videos has gained increased
attention recently. However, annotating action classes and frame-wise
boundaries is extremely time consuming and cost intensive, especially on
large-scale datasets. To address this issue, we propose an unsupervised
approach for learning action classes from untrimmed video sequences. In
particular, we propose a temporal embedding network that combines relative time
prediction, feature reconstruction, and sequence-to-sequence learning, to
preserve the spatial layout and sequential nature of the video features. A
two-step clustering pipeline on these embedded feature representations then
allows us to enforce temporal consistency within, as well as across videos.
Based on the identified clusters, we decode the video into coherent temporal
segments that correspond to semantically meaningful action classes. Our
evaluation on three challenging datasets shows the impact of each component
and, furthermore, demonstrates our state-of-the-art unsupervised action
segmentation results.
- Abstract(参考訳): ビデオ中の時間的アクションセグメンテーションは近年注目を集めている。
しかし、特に大規模データセットでは、アクションクラスとフレームワイド境界の注釈付けは非常に時間がかかり、コストがかかる。
この問題に対処するために,未編集のビデオシーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,映像特徴の空間的レイアウトとシーケンシャル性を維持するために,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
これら組み込み機能表現上の2ステップのクラスタリングパイプラインにより、ビデオ内だけでなく、時間的一貫性を強制することができます。
識別されたクラスタに基づいて,映像を意味的に意味のあるアクションクラスに対応するコヒーレントなテンポラルセグメントにデコードする。
3つの挑戦的データセットに対する評価は、各コンポーネントの影響を示し、さらに、最先端の教師なしアクションセグメンテーションの結果を示す。
関連論文リスト
- Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Action Shuffle Alternating Learning for Unsupervised Action Segmentation [38.32743770719661]
我々は、正および負のアクションシーケンスを認識するためにRNNを訓練し、RNNの隠蔽層を新しいアクションレベルの特徴埋め込みとして捉えた。
動作の監視ができないため、アクション長を明示的にモデル化したHMMを指定し、ViterbiアルゴリズムによるMAPアクションセグメンテーションを推論する。
結果として生じるアクションセグメンテーションは、アクションレベルの機能埋め込みとHMMの更新を推定するための疑似根拠の真実として使用されます。
論文 参考訳(メタデータ) (2021-04-05T18:58:57Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。