論文の概要: Efficient Action Counting with Dynamic Queries
- arxiv url: http://arxiv.org/abs/2403.01543v3
- Date: Sun, 9 Jun 2024 09:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:03:43.092942
- Title: Efficient Action Counting with Dynamic Queries
- Title(参考訳): 動的クエリによる効率的なアクションカウント
- Authors: Zishi Li, Xiaoxuan Ma, Qiuyan Shang, Wentao Zhu, Hai Ci, Yu Qiao, Yizhou Wang,
- Abstract要約: 線形計算複雑性を伴う繰り返し動作サイクルをローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。
静的なアクションクエリとは異なり、このアプローチは動的に動画機能をアクションクエリに埋め込み、より柔軟で一般化可能な表現を提供する。
提案手法は, 従来よりも特に, 長時間の映像シーケンス, 見えない動作, 様々な速度での動作において, 顕著に優れていた。
- 参考スコア(独自算出の注目度): 31.833468477101604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal repetition counting aims to quantify the repeated action cycles within a video. The majority of existing methods rely on the similarity correlation matrix to characterize the repetitiveness of actions, but their scalability is hindered due to the quadratic computational complexity. In this work, we introduce a novel approach that employs an action query representation to localize repeated action cycles with linear computational complexity. Based on this representation, we further develop two key components to tackle the essential challenges of temporal repetition counting. Firstly, to facilitate open-set action counting, we propose the dynamic update scheme on action queries. Unlike static action queries, this approach dynamically embeds video features into action queries, offering a more flexible and generalizable representation. Secondly, to distinguish between actions of interest and background noise actions, we incorporate inter-query contrastive learning to regularize the video representations corresponding to different action queries. As a result, our method significantly outperforms previous works, particularly in terms of long video sequences, unseen actions, and actions at various speeds. On the challenging RepCountA benchmark, we outperform the state-of-the-art method TransRAC by 26.5% in OBO accuracy, with a 22.7% mean error decrease and 94.1% computational burden reduction. Code is available at https://github.com/lizishi/DeTRC.
- Abstract(参考訳): 時間的反復カウントは、ビデオ内で繰り返される行動サイクルを定量化することを目的としている。
既存の手法の大半は、動作の反復性を特徴付けるために類似性相関行列に依存しているが、そのスケーラビリティは2次計算の複雑さのために妨げられている。
本研究では,線形計算複雑性を伴う繰り返し動作サイクルをローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。
この表現に基づいて、時間的繰り返しカウントの本質的な課題に取り組むために、2つの重要な要素を更に開発する。
まず、オープンセットのアクションカウントを容易にするために、アクションクエリの動的更新方式を提案する。
静的なアクションクエリとは異なり、このアプローチは動的に動画機能をアクションクエリに埋め込み、より柔軟で一般化可能な表現を提供する。
第二に、関心の行動と背景雑音の行為を区別するために、異なるアクションクエリに対応するビデオ表現を正規化するために、クエリ間のコントラスト学習を取り入れる。
その結果,提案手法は,特に映像の長いシーケンス,目に見えない動作,様々な速度での動作において,従来よりも顕著に優れていた。
挑戦的なRepCountAベンチマークでは、OBOの精度が26.5%向上し、平均誤差が22.7%、計算負荷が94.1%減少した。
コードはhttps://github.com/lizishi/DeTRC.comで入手できる。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - FCA-RAC: First Cycle Annotated Repetitive Action Counting [30.253568218869237]
我々は、FCA-RAC(First Cycle Annotated Repetitive Action Counting)と呼ばれるフレームワークを提案する。
FCA-RACは、(1)トレーニングビデオに、第1のアクションサイクルの開始と終了と、合計のアクションカウントとをアノテートするラベリング技術を含む。
この手法により、モデルが初期行動サイクルとその後の行動との相関を捉えることができる。
論文 参考訳(メタデータ) (2024-06-18T01:12:43Z) - Online Action Representation using Change Detection and Symbolic Programming [0.3937354192623676]
提案手法では,動作シーケンスを自動的にセグメント化するために変更検出アルゴリズムを用いる。
クラス繰り返し検出の下流タスクにおいて,この表現の有効性を示す。
実験の結果,提案手法はオンラインで動作しているにもかかわらず,既存手法と同等あるいは同等に動作していることがわかった。
論文 参考訳(メタデータ) (2024-05-19T10:31:59Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - TransRAC: Encoding Multi-scale Temporal Correlation with Transformers
for Repetitive Action Counting [30.541542156648894]
既存の手法は、短いビデオで反復的なアクションカウントを実行することに重点を置いている。
多様なビデオ長をカバーする大規模反復的行動カウントデータセットを提案する。
本研究では,行動周期の微粒化アノテーションの助けを借りて,行動周期を予測する密度マップ回帰に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-04-03T07:50:18Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Context-aware and Scale-insensitive Temporal Repetition Counting [60.40438811580856]
時間的反復カウントは、与えられた反復行動のサイクル数を推定することを目的としている。
既存のディープラーニング手法は、実生活における複雑な反復行動に対して無効である固定された時間スケールで繰り返し動作が実行されると仮定する。
本稿では,未知かつ多様なサイクル長による繰り返しカウントの課題に対処するための文脈認識・スケール非感性フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-18T05:49:48Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。