論文の概要: Stitch Contrast and Segment_Learning a Human Action Segmentation Model Using Trimmed Skeleton Videos
- arxiv url: http://arxiv.org/abs/2412.14988v2
- Date: Sat, 21 Dec 2024 13:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 12:13:26.112559
- Title: Stitch Contrast and Segment_Learning a Human Action Segmentation Model Using Trimmed Skeleton Videos
- Title(参考訳): トリミングスケルトンビデオを用いた人間の行動セグメンテーションモデルにおけるスティッチコントラストとセグメンテーション
- Authors: Haitao Tian, Pierre Payeur,
- Abstract要約: 本稿では,短いトリミングスケルトンビデオに基づいてトレーニングされた骨格に基づくアクションセグメンテーションのための新しいフレームワークを提案する。
Stitch、Contrast、Segmentの3つのステップで実装されている。
実験には、トリミングされたソースデータセットと、トリミングされていないターゲットデータセットが含まれる。
- 参考スコア(独自算出の注目度): 3.069335774032178
- License:
- Abstract: Existing skeleton-based human action classification models rely on well-trimmed action-specific skeleton videos for both training and testing, precluding their scalability to real-world applications where untrimmed videos exhibiting concatenated actions are predominant. To overcome this limitation, recently introduced skeleton action segmentation models involve un-trimmed skeleton videos into end-to-end training. The model is optimized to provide frame-wise predictions for any length of testing videos, simultaneously realizing action localization and classification. Yet, achieving such an improvement im-poses frame-wise annotated skeleton videos, which remains time-consuming in practice. This paper features a novel framework for skeleton-based action segmentation trained on short trimmed skeleton videos, but that can run on longer un-trimmed videos. The approach is implemented in three steps: Stitch, Contrast, and Segment. First, Stitch proposes a tem-poral skeleton stitching scheme that treats trimmed skeleton videos as elementary human motions that compose a semantic space and can be sampled to generate multi-action stitched se-quences. Contrast learns contrastive representations from stitched sequences with a novel discrimination pretext task that enables a skeleton encoder to learn meaningful action-temporal contexts to improve action segmentation. Finally, Segment relates the proposed method to action segmentation by learning a segmentation layer while handling particular da-ta availability. Experiments involve a trimmed source dataset and an untrimmed target dataset in an adaptation formulation for real-world skeleton-based human action segmentation to evaluate the effectiveness of the proposed method.
- Abstract(参考訳): 既存のスケルトンに基づく人間の行動分類モデルは、訓練とテストの両方において、十分にトリミングされたアクション固有のスケルトンビデオに依存しており、統合されたアクションを示す未トリミングビデオが主流である現実世界のアプリケーションへのスケーラビリティを前提としている。
この制限を克服するため、最近導入されたスケルトンアクションセグメンテーションモデルでは、非トリミングスケルトンビデオをエンドツーエンドのトレーニングに含めている。
このモデルは、任意のテストビデオ長に対してフレームワイズ予測を提供し、同時にアクションローカライゼーションと分類を実現するよう最適化されている。
しかし、このような改善を実現するには、フレームワイドの注釈付きスケルトンビデオが必須であり、実際には時間がかかる。
本稿では、短いトリミングされた骨格ビデオでトレーニングされた骨格に基づくアクションセグメンテーションのための新しいフレームワークを特徴とするが、より長いトリミングされたビデオで実行することができる。
このアプローチは、Stitch、Contrast、Segmentの3つのステップで実装されている。
まず、スチッチは、トリミングされたスケルトンビデオを意味空間を構成する基本的な人間の動きとして扱い、マルチアクション縫合シークエンスを生成するためにサンプル化できるテンポラルスケルトン縫合スキームを提案する。
コントラストは、スケルトンエンコーダが意味のある行動・時間的文脈を学習し、アクションセグメンテーションを改善するための、新しい識別プリテキストタスクで縫合されたシーケンスからコントラスト表現を学習する。
最後に、Segmentは特定のda-ta可用性を処理しながらセグメンテーション層を学習することで、提案手法を動作セグメンテーションに関連付ける。
提案手法の有効性を評価するために,実世界の骨格をベースとした人間の行動セグメンテーションの適応定式化において,トリミングされたソースデータセットと未トリミングされたターゲットデータセットを含む実験を行った。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - LAC: Latent Action Composition for Skeleton-based Action Segmentation [21.797658771678066]
骨格に基づくアクションセグメンテーションでは、トリミングされていないビデオの中で構成可能なアクションを認識する必要がある。
現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルでそれらを処理し、フレームワイズアクションを分類することでこの問題を分離している。
骨格をベースとしたアクションセグメンテーションのための合成構成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。
論文 参考訳(メタデータ) (2023-08-28T11:20:48Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。