論文の概要: FCA-RAC: First Cycle Annotated Repetitive Action Counting
- arxiv url: http://arxiv.org/abs/2406.12178v1
- Date: Tue, 18 Jun 2024 01:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:18:17.379888
- Title: FCA-RAC: First Cycle Annotated Repetitive Action Counting
- Title(参考訳): FCA-RAC:最初のサイクルの注釈付き反復行動カウント
- Authors: Jiada Lu, WeiWei Zhou, Xiang Qian, Dongze Lian, Yanyu Xu, Weifeng Wang, Lina Cao, Shenghua Gao,
- Abstract要約: 我々は、FCA-RAC(First Cycle Annotated Repetitive Action Counting)と呼ばれるフレームワークを提案する。
FCA-RACは、(1)トレーニングビデオに、第1のアクションサイクルの開始と終了と、合計のアクションカウントとをアノテートするラベリング技術を含む。
この手法により、モデルが初期行動サイクルとその後の行動との相関を捉えることができる。
- 参考スコア(独自算出の注目度): 30.253568218869237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repetitive action counting quantifies the frequency of specific actions performed by individuals. However, existing action-counting datasets have limited action diversity, potentially hampering model performance on unseen actions. To address this issue, we propose a framework called First Cycle Annotated Repetitive Action Counting (FCA-RAC). This framework contains 4 parts: 1) a labeling technique that annotates each training video with the start and end of the first action cycle, along with the total action count. This technique enables the model to capture the correlation between the initial action cycle and subsequent actions; 2) an adaptive sampling strategy that maximizes action information retention by adjusting to the speed of the first annotated action cycle in videos; 3) a Multi-Temporal Granularity Convolution (MTGC) module, that leverages the muli-scale first action as a kernel to convolve across the entire video. This enables the model to capture action variations at different time scales within the video; 4) a strategy called Training Knowledge Augmentation (TKA) that exploits the annotated first action cycle information from the entire dataset. This allows the network to harness shared characteristics across actions effectively, thereby enhancing model performance and generalizability to unseen actions. Experimental results demonstrate that our approach achieves superior outcomes on RepCount-A and related datasets, highlighting the efficacy of our framework in improving model performance on seen and unseen actions. Our paper makes significant contributions to the field of action counting by addressing the limitations of existing datasets and proposing novel techniques for improving model generalizability.
- Abstract(参考訳): 反復的行動カウント(repetitive action counting)は、個人によって実行される特定の行動の頻度を定量化する。
しかしながら、既存のアクションカウントデータセットは、アクションの多様性が制限されており、目に見えないアクションに対するモデルパフォーマンスを阻害する可能性がある。
そこで本研究では,FCA-RAC(First Cycle Annotated Repetitive Action Counting)というフレームワークを提案する。
このフレームワークには4つの部分がある。
1)各トレーニングビデオに第1アクションサイクルの開始と終了と、合計アクション数とをアノテートするラベル付け手法。
この手法により、モデルが初期行動サイクルとその後の行動との相関を捉えることができる。
2 ビデオにおける第1の注釈付動作サイクルの速度に調整することにより行動情報の保持を最大化する適応的サンプリング戦略
3)Multi-Temporal Granularity Convolution (MTGC)モジュールは,マルチスケールファーストアクションをカーネルとして活用し,ビデオ全体をコンボリュートする。
これにより、ビデオ内のさまざまな時間スケールでアクションのバリエーションをキャプチャできる。
4) データセット全体からの注釈付きファーストアクションサイクル情報を活用するTKA(Training Knowledge Augmentation)と呼ばれる戦略。
これにより、ネットワークは、アクション間の共有特性を効果的に活用し、モデル性能と、目に見えないアクションに対する一般化性を高めることができる。
実験結果から,提案手法はRepCount-Aと関連するデータセットに対して優れた結果をもたらすことが確認された。
本稿では、既存のデータセットの限界に対処し、モデル一般化性を改善するための新しい手法を提案することで、アクションカウントの分野に多大な貢献をする。
関連論文リスト
- Recovering Complete Actions for Cross-dataset Skeleton Action Recognition [25.276593723734727]
本稿では,新しい完全動作に基づく復元・再サンプル拡張フレームワークを提案する。
完全なアクションを回復し、これらの全シーケンスから再サンプリングすることで、目に見えない領域に対して強力な拡張を生成することができる。
3つのスケルトン行動データセットを用いたクロスデータセット設定に対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-31T05:27:58Z) - Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Coherent Temporal Synthesis for Incremental Action Segmentation [42.46228728930902]
本稿では、インクリメンタルなアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。
本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現するテンポラリ・コヒーレント・アクション・モデルを提案する。
Breakfastデータセットの10タスクのインクリメンタルセットアップでは,ベースラインと比較して最大22%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-03-10T06:07:06Z) - Efficient Action Counting with Dynamic Queries [31.833468477101604]
線形計算複雑性を伴う繰り返し動作サイクルをローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。
静的なアクションクエリとは異なり、このアプローチは動的に動画機能をアクションクエリに埋め込み、より柔軟で一般化可能な表現を提供する。
提案手法は, 従来よりも特に, 長時間の映像シーケンス, 見えない動作, 様々な速度での動作において, 顕著に優れていた。
論文 参考訳(メタデータ) (2024-03-03T15:43:11Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Enhancing Sequential Recommendation with Graph Contrastive Learning [64.05023449355036]
本稿では、逐次推薦のためのグラフコントラスト学習(GCL4SR)という、新しいシーケンシャルレコメンデーションフレームワークを提案する。
GCL4SRは、すべてのユーザのインタラクションシーケンスに基づいて構築された重み付きアイテム遷移グラフ(WITG)を使用して、各インタラクションのグローバルなコンテキスト情報を提供し、シーケンスデータのノイズ情報を弱める。
実世界のデータセットの実験では、GCL4SRは最先端のシーケンシャルレコメンデーションメソッドよりも一貫して優れていることが示されている。
論文 参考訳(メタデータ) (2022-05-30T03:53:31Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Dynamic Graph Collaborative Filtering [64.87765663208927]
動的レコメンデーションは,逐次データに基づくリアルタイム予測を提供するレコメンデータシステムにとって不可欠である。
本稿では、動的グラフを利用して協調関係とシーケンシャル関係をキャプチャする新しいフレームワーク、Dynamic Graph Collaborative Filtering (DGCF)を提案する。
提案手法は, 動的協調情報の統合の有効性を示すため, 動作繰り返しの少ないデータセットでは高い性能を実現する。
論文 参考訳(メタデータ) (2021-01-08T04:16:24Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。