論文の概要: IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting
- arxiv url: http://arxiv.org/abs/2403.11959v2
- Date: Wed, 20 Mar 2024 11:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 13:39:48.345070
- Title: IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting
- Title(参考訳): IVAC-P2L:ビデオアクションカウントを改善するために不規則な繰り返しプリミティブを活用する
- Authors: Hang Wang, Zhi-Qi Cheng, Youtian Du, Lei Zhang,
- Abstract要約: ビデオアクションカウント(VAC)は、ビデオ内の反復的なアクションを分析する上で重要である。
伝統的な手法は、割り込みや周期の変動など、アクション反復の複雑さを見落としてきた。
ビデオにおける不規則な反復パターンのモデル化を優先する不規則なビデオアクションカウント(IVAC)を導入する。
- 参考スコア(独自算出の注目度): 24.596979713593765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Action Counting (VAC) is crucial in analyzing sports, fitness, and everyday activities by quantifying repetitive actions in videos. However, traditional VAC methods have overlooked the complexity of action repetitions, such as interruptions and the variability in cycle duration. Our research addresses the shortfall by introducing a novel approach to VAC, called Irregular Video Action Counting (IVAC). IVAC prioritizes modeling irregular repetition patterns in videos, which we define through two primary aspects: Inter-cycle Consistency and Cycle-interval Inconsistency. Inter-cycle Consistency ensures homogeneity in the spatial-temporal representations of cycle segments, signifying action uniformity within cycles. Cycle-interval inconsistency highlights the importance of distinguishing between cycle segments and intervals based on their inherent content differences. To encapsulate these principles, we propose a new methodology that includes consistency and inconsistency modules, supported by a unique pull-push loss (P2L) mechanism. The IVAC-P2L model applies a pull loss to promote coherence among cycle segment features and a push loss to clearly distinguish features of cycle segments from interval segments. Empirical evaluations conducted on the RepCount dataset demonstrate that the IVAC-P2L model sets a new benchmark in VAC task performance. Furthermore, the model demonstrates exceptional adaptability and generalization across various video contents, outperforming existing models on two additional datasets, UCFRep and Countix, without the need for dataset-specific optimization. These results confirm the efficacy of our approach in addressing irregular repetitions in videos and pave the way for further advancements in video analysis and understanding.
- Abstract(参考訳): ビデオアクションカウント(英語: Video Action Counting, VAC)は、スポーツ、フィットネス、日々の活動を分析し、ビデオ内の反復行動の定量化に重要である。
しかしながら、従来のVAC手法は、割り込みや周期の変動など、アクション反復の複雑さを見落としている。
本研究は,IVAC(Irregular Video Action Counting)と呼ばれる新しいアプローチを導入することで,その欠点に対処する。
IVACはビデオにおける不規則な反復パターンのモデリングを優先し、サイクル間一貫性とサイクル間一貫性の2つの主要な側面で定義する。
サイクル間一貫性は、サイクルセグメントの時空間表現における均一性を保証する。
サイクル間不整合は、その固有の内容の違いに基づいて、サイクルセグメントと間隔を区別することの重要性を強調している。
これらの原則をカプセル化するために,一意のプル・プッシュ・ロス(P2L)機構によって支持される一貫性と不整合モジュールを含む新しい方法論を提案する。
IVAC-P2Lモデルでは、周期セグメントの特徴間のコヒーレンスを促進するためにプルロスと、周期セグメントの特徴と間隔セグメントを明確に区別するためにプッシュロスを適用している。
RepCountデータセットで実施された実証評価では、IVAC-P2LモデルがVACタスク性能の新たなベンチマークを設定できることが示されている。
さらに、このモデルは、データセット固有の最適化を必要とせずに、UCFRepとCountixという2つの追加データセット上で既存のモデルよりも優れた、様々なビデオコンテンツに対する例外的な適応性と一般化を示す。
これらの結果は,ビデオにおける不規則な繰り返しに対処するためのアプローチの有効性を確認し,ビデオ分析と理解のさらなる進歩の道を開くものである。
関連論文リスト
- Eigen-Cluster VIS: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
この研究は、Eigen-cluster VISと呼ばれる新しい弱教師付き手法を導入する。
マスクアノテーションを必要とせずに、他のVISアプローチと比較して、競争精度が向上する。
YouTube-VIS21とOVIS 2019/20データセットで評価されている。
論文 参考訳(メタデータ) (2024-08-29T16:05:05Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Context-aware and Scale-insensitive Temporal Repetition Counting [60.40438811580856]
時間的反復カウントは、与えられた反復行動のサイクル数を推定することを目的としている。
既存のディープラーニング手法は、実生活における複雑な反復行動に対して無効である固定された時間スケールで繰り返し動作が実行されると仮定する。
本稿では,未知かつ多様なサイクル長による繰り返しカウントの課題に対処するための文脈認識・スケール非感性フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-18T05:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。