論文の概要: Improving Viewpoint-Invariance and Temporal Consistency for Action Detection
- arxiv url: http://arxiv.org/abs/2605.22695v1
- Date: Thu, 21 May 2026 16:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.348603
- Title: Improving Viewpoint-Invariance and Temporal Consistency for Action Detection
- Title(参考訳): 行動検出のための視点不変性と時間整合性の改善
- Authors: Yannick Porto, Renato Martins, Thomas Chalumeau, Cedric Demonceaux,
- Abstract要約: 本稿では,新しい2段階動作検出手法を提案する。
第1段階では、拡張仮想視点から運動特徴を抽出する。
第2ステージではビュー不変のマルチスケール時間エンコーダが導入されている。
- 参考スコア(独自算出の注目度): 2.0019258650495493
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Viewpoint change invariance and action temporal consistency are critical aspects for the effective deployment of human action detection of untrimmed videos. Existing appearance-based video detection methods often struggle with limited viewpoint diversity during training, while motion-based detection approaches frequently fail to model fine-grained temporal relationships across consecutive motion windows. This paper introduces a novel two-stage action detection approach designed to improve both view-invariance and global temporal coherence properties. In the first stage, we extract motion features from augmented virtual viewpoints, solely used at training. Then, the second stage introduces a new view-invariant, multi-scale temporal encoder based on selective state-space sequence modelling to aggregate information across viewpoints and time scales. Experiments on PKU-MMD and BABEL benchmarks demonstrate that this approach significantly outperforms state-of-the-art methods in all considered splits. Code and trained models are available at: https://icb-vision-ai.github.io/HydraView-TAD
- Abstract(参考訳): 視点変化の不変性と行動時整合性は、人間の行動検出を効果的に展開するための重要な側面である。
既存の外見に基づくビデオ検出手法は、トレーニング中に限られた視点の多様性に苦しむことが多いが、動きに基づく検出手法は、連続した動き窓間の微粒な時間的関係をモデル化しないことが多い。
本稿では、ビュー不変性とグローバル時間コヒーレンス特性の両方を改善するために、新しい2段階アクション検出手法を提案する。
第1段階では、トレーニングにのみ使用される拡張仮想視点から運動特徴を抽出する。
そして、第2段階は、視点と時間スケールの情報を集約する選択的な状態空間シーケンスモデリングに基づく、新しいビュー不変のマルチスケール時間エンコーダを導入する。
PKU-MMD と BABEL のベンチマーク実験により、この手法は全ての検討された分割において最先端の手法よりも大幅に優れていることが示された。
コードとトレーニングされたモデルについては、https://icb-vision-ai.github.io/HydraView-TADを参照してください。
関連論文リスト
- Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [46.25518274714238]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T10:20:16Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。