論文の概要: Rethinking temporal self-similarity for repetitive action counting
- arxiv url: http://arxiv.org/abs/2407.09431v1
- Date: Fri, 12 Jul 2024 17:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 22:58:40.414800
- Title: Rethinking temporal self-similarity for repetitive action counting
- Title(参考訳): 反復行動計数のための時間的自己相似性の再考
- Authors: Yanan Luo, Jinhui Yi, Yazan Abu Farha, Moritz Wolter, Juergen Gall,
- Abstract要約: 本稿では,埋め込みを学習し,完全な時間分解能で行動開始確率を予測するフレームワークを提案する。
提案するフレームワークは,3つのデータセットの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 15.84678216421722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counting repetitive actions in long untrimmed videos is a challenging task that has many applications such as rehabilitation. State-of-the-art methods predict action counts by first generating a temporal self-similarity matrix (TSM) from the sampled frames and then feeding the matrix to a predictor network. The self-similarity matrix, however, is not an optimal input to a network since it discards too much information from the frame-wise embeddings. We thus rethink how a TSM can be utilized for counting repetitive actions and propose a framework that learns embeddings and predicts action start probabilities at full temporal resolution. The number of repeated actions is then inferred from the action start probabilities. In contrast to current approaches that have the TSM as an intermediate representation, we propose a novel loss based on a generated reference TSM, which enforces that the self-similarity of the learned frame-wise embeddings is consistent with the self-similarity of repeated actions. The proposed framework achieves state-of-the-art results on three datasets, i.e., RepCount, UCFRep, and Countix.
- Abstract(参考訳): 長いビデオで繰り返しアクションを数えるのは、リハビリテーションなど多くの応用がある難しい作業です。
State-of-the-art method predicts by first generated a temporal self-similarity matrix (TSM) from the sampled frames and then feed the matrix to a predictor network。
しかし、自己相似行列は、フレームワイド埋め込みからあまりにも多くの情報を捨ててしまうため、ネットワークへの最適入力ではない。
そこで我々は,TSMを反復行動のカウントに活用する方法を再考し,埋め込みを学習し,完全な時間分解能で行動開始確率を予測するフレームワークを提案する。
繰り返し実行されるアクションの数は、アクション開始確率から推測される。
TSMを中間表現として持つ現在のアプローチとは対照的に、生成された参照TSMに基づく新たな損失を提案し、学習フレームの埋め込みの自己相似性が繰り返し動作の自己相似性と一致することを強制する。
提案するフレームワークは,RepCount, UCFRep, Countixの3つのデータセットに対して,最先端の結果を実現する。
関連論文リスト
- Localization-Aware Multi-Scale Representation Learning for Repetitive Action Counting [19.546761142820376]
反復的行動カウント (RAC) は、ビデオにおけるクラス非依存の行動発生回数を、例のない形で推定することを目的としている。
現在のRAC法の多くは、生のフレーム間類似性表現を周期予測に頼っている。
我々は、より堅牢で効率的なビデオ特徴を得るために、前景のローカライゼーション目標を類似性表現学習に導入する。
論文 参考訳(メタデータ) (2025-01-13T13:24:41Z) - Repetitive Action Counting with Hybrid Temporal Relation Modeling [28.588011505143225]
反復行動カウント(英: Repetitive Action Counting、RAC)は、ビデオにおける反復行動の数を数えることを目的としている。
RACのための時間的自己相似行列(TSSM)に基づく既存の手法は、捕獲動作が不十分なボトルネックに閉じ込められている。
RACのための多様なTSSMを構築するために,Hybrid Temporal Relation Modeling Network (HTRM-Net) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T06:44:44Z) - Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Efficient Action Counting with Dynamic Queries [31.833468477101604]
線形計算複雑性を伴う繰り返し動作サイクルをローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。
静的なアクションクエリとは異なり、このアプローチは動的に動画機能をアクションクエリに埋め込み、より柔軟で一般化可能な表現を提供する。
提案手法は, 従来よりも特に, 長時間の映像シーケンス, 見えない動作, 様々な速度での動作において, 顕著に優れていた。
論文 参考訳(メタデータ) (2024-03-03T15:43:11Z) - Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling [67.02157180089573]
時系列事前トレーニングは、最近、ラベルのコストを削減し、下流の様々なタスクに利益をもたらす可能性があるとして、広く注目を集めている。
本稿では,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師型事前学習フレームワークとしてTimeSiamを提案する。
論文 参考訳(メタデータ) (2024-02-04T13:10:51Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Representation Learning via Global Temporal Alignment and
Cycle-Consistency [20.715813546383178]
時間列の整合に基づく表現学習のための弱教師付き手法を提案する。
従来方式に比べて大幅な性能向上を報告しています。
さらに、時間アライメントフレームワークの2つのアプリケーション、すなわち3Dポーズ再構築ときめ細かいオーディオ/ビジュアル検索を報告します。
論文 参考訳(メタデータ) (2021-05-11T17:34:04Z) - Context-aware and Scale-insensitive Temporal Repetition Counting [60.40438811580856]
時間的反復カウントは、与えられた反復行動のサイクル数を推定することを目的としている。
既存のディープラーニング手法は、実生活における複雑な反復行動に対して無効である固定された時間スケールで繰り返し動作が実行されると仮定する。
本稿では,未知かつ多様なサイクル長による繰り返しカウントの課題に対処するための文脈認識・スケール非感性フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-18T05:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。