論文の概要: Iterative Frame-Level Representation Learning And Classification For
Semi-Supervised Temporal Action Segmentation
- arxiv url: http://arxiv.org/abs/2112.01402v1
- Date: Thu, 2 Dec 2021 16:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 21:21:08.434864
- Title: Iterative Frame-Level Representation Learning And Classification For
Semi-Supervised Temporal Action Segmentation
- Title(参考訳): 半教師付き時間行動セグメンテーションのための反復的フレームレベル表現学習と分類
- Authors: Dipika Singhania, Rahul Rahaman, Angela Yao
- Abstract要約: 時間的アクションセグメンテーションは、各フレームのアクションを(長い)ビデオシーケンスで分類する。
時間的行動セグメント化のための第1の半教師付き手法を提案する。
- 参考スコア(独自算出の注目度): 25.08516972520265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action segmentation classifies the action of each frame in (long)
video sequences. Due to the high cost of frame-wise labeling, we propose the
first semi-supervised method for temporal action segmentation. Our method
hinges on unsupervised representation learning, which, for temporal action
segmentation, poses unique challenges. Actions in untrimmed videos vary in
length and have unknown labels and start/end times. Ordering of actions across
videos may also vary. We propose a novel way to learn frame-wise
representations from temporal convolutional networks (TCNs) by clustering input
features with added time-proximity condition and multi-resolution similarity.
By merging representation learning with conventional supervised learning, we
develop an "Iterative-Contrast-Classify (ICC)" semi-supervised learning scheme.
With more labelled data, ICC progressively improves in performance; ICC
semi-supervised learning, with 40% labelled videos, performs similar to
fully-supervised counterparts. Our ICC improves MoF by {+1.8, +5.6, +2.5}% on
Breakfast, 50Salads and GTEA respectively for 100% labelled videos.
- Abstract(参考訳): 時間的アクションセグメンテーションは、各フレームのアクションを(長い)ビデオシーケンスで分類する。
フレーム毎のラベリングのコストが高いため,時間的動作セグメント化のための最初の半教師あり方式を提案する。
本手法は,時間的行動セグメンテーションのために,教師なし表現学習に頼っている。
非トリミングビデオのアクションは長さが異なり、未知のラベルと開始/終了時刻がある。
ビデオ間でのアクションの順序も様々である。
時系列畳み込みネットワーク (tcns) から, 時間-公理条件とマルチレゾリューション類似度を付加した入力特徴をクラスタリングすることで, フレーム指向表現を学習する新しい手法を提案する。
表現学習と従来の教師付き学習を融合することにより,半教師付き学習方式「イテレーティブ・コントラストクラス化(icc)」を開発した。
ICCの半教師付き学習は、40%のラベル付きビデオを持つが、完全に教師付き学習と同じようなパフォーマンスを発揮する。
ICCはBreakfast, 50Salads, GTEAで, 100%ラベル付きビデオでは {+1.8, +5.6, +2.5}% でMoFを改善する。
関連論文リスト
- SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation [20.182928938110923]
時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
論文 参考訳(メタデータ) (2022-12-20T14:53:46Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - SCT: Set Constrained Temporal Transformer for Set Supervised Action
Segmentation [22.887397951846353]
弱教師付きアプローチは、弱ラベル付きビデオから時間的アクションセグメンテーションを学ぶことを目的としている。
このようなデータに基づいてエンドツーエンドにトレーニング可能なアプローチを提案する。
提案手法は,最先端の結果が得られる3つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-03-31T14:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。