論文の概要: C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation
- arxiv url: http://arxiv.org/abs/2212.11078v1
- Date: Tue, 20 Dec 2022 14:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:13:04.268753
- Title: C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation
- Title(参考訳): C2F-TCN: 半監督された時間的行動セグメンテーションのためのフレームワーク
- Authors: Dipika Singhania, Rahul Rahaman, Angela Yao
- Abstract要約: 時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
- 参考スコア(独自算出の注目度): 20.182928938110923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action segmentation tags action labels for every frame in an input
untrimmed video containing multiple actions in a sequence. For the task of
temporal action segmentation, we propose an encoder-decoder-style architecture
named C2F-TCN featuring a "coarse-to-fine" ensemble of decoder outputs. The
C2F-TCN framework is enhanced with a novel model agnostic temporal feature
augmentation strategy formed by the computationally inexpensive strategy of the
stochastic max-pooling of segments. It produces more accurate and
well-calibrated supervised results on three benchmark action segmentation
datasets. We show that the architecture is flexible for both supervised and
representation learning. In line with this, we present a novel unsupervised way
to learn frame-wise representation from C2F-TCN. Our unsupervised learning
approach hinges on the clustering capabilities of the input features and the
formation of multi-resolution features from the decoder's implicit structure.
Further, we provide the first semi-supervised temporal action segmentation
results by merging representation learning with conventional supervised
learning. Our semi-supervised learning scheme, called
``Iterative-Contrastive-Classify (ICC)'', progressively improves in performance
with more labeled data. The ICC semi-supervised learning in C2F-TCN, with 40%
labeled videos, performs similar to fully supervised counterparts.
- Abstract(参考訳): 時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
時間的動作セグメンテーションの課題として,c2f-tcn というエンコーダ-デコーダ型アーキテクチャを提案する。
C2F-TCNフレームワークは、セグメントの確率的最大プールの計算的安価戦略によって形成される、新しいモデルに依存しない時間的特徴増強戦略によって拡張される。
3つのベンチマークアクションセグメンテーションデータセットで、より正確で適切に教師付きされた結果を生成する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
これに合わせて,C2F-TCNからフレームワイド表現を学習するための教師なし手法を提案する。
我々の教師なし学習アプローチは、入力特徴のクラスタリング能力とデコーダの暗黙構造からの多解像度特徴の形成に依存している。
さらに,表現学習と従来の教師付き学習を融合して,最初の半教師付き時間行動分割結果を提供する。
Iterative-Contrastive-Classify (ICC)' と呼ばれる我々の半教師付き学習スキームは、ラベル付きデータにより徐々に性能が向上する。
C2F-TCNのICC半教師付き学習では、40%のラベル付きビデオが完全に教師付き学習と類似している。
関連論文リスト
- SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - PointCMP: Contrastive Mask Prediction for Self-supervised Learning on
Point Cloud Videos [58.18707835387484]
本稿では,ポイントクラウドビデオ上での自己教師型学習のための対照的なマスク予測フレームワークを提案する。
PointCMPは、局所的情報と大域的情報の両方を同時に学習するために、2分岐構造を用いる。
我々のフレームワークは、ベンチマークデータセットにおける最先端のパフォーマンスを達成し、既存のフル教師付きデータセットよりも優れています。
論文 参考訳(メタデータ) (2023-05-06T15:47:48Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Iterative Frame-Level Representation Learning And Classification For
Semi-Supervised Temporal Action Segmentation [25.08516972520265]
時間的アクションセグメンテーションは、各フレームのアクションを(長い)ビデオシーケンスで分類する。
時間的行動セグメント化のための第1の半教師付き手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T16:47:24Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video
Person Re-Identification [86.73532136686438]
映像人物再識別(reID)のための効率的な時空間表現法を提案する。
空間相補性モデリングのための双方向相補性ネットワーク(BiCnet)を提案する。
BiCnet-TKSは、約50%の計算量で最先端の性能を発揮する。
論文 参考訳(メタデータ) (2021-04-30T06:44:34Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。