論文の概要: Probabilistic Temporal Masked Attention for Cross-view Online Action Detection
- arxiv url: http://arxiv.org/abs/2508.17025v1
- Date: Sat, 23 Aug 2025 13:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.302584
- Title: Probabilistic Temporal Masked Attention for Cross-view Online Action Detection
- Title(参考訳): クロスビューオンライン行動検出のための確率的仮面注意
- Authors: Liping Xie, Yang Tan, Shicheng Jing, Huimin Lu, Kanjian Zhang,
- Abstract要約: オンライン行動検出(Online Action Detection, OAD)は、コンピュータビジョンにおけるビデオシーケンス分類において重要な課題である。
本稿では,ビデオフレームの潜在圧縮表現をクロスビューで導出する確率的仮面注意(PTMA)モデルを提案する。
我々は,PTMAがDAHLIA,IKEA,Breakfastのデータセット上で最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 11.087375583811719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a critical task in video sequence classification within computer vision, Online Action Detection (OAD) has garnered significant attention. The sensitivity of mainstream OAD models to varying video viewpoints often hampers their generalization when confronted with unseen sources. To address this limitation, we propose a novel Probabilistic Temporal Masked Attention (PTMA) model, which leverages probabilistic modeling to derive latent compressed representations of video frames in a cross-view setting. The PTMA model incorporates a GRU-based temporal masked attention (TMA) cell, which leverages these representations to effectively query the input video sequence, thereby enhancing information interaction and facilitating autoregressive frame-level video analysis. Additionally, multi-view information can be integrated into the probabilistic modeling to facilitate the extraction of view-invariant features. Experiments conducted under three evaluation protocols: cross-subject (cs), cross-view (cv), and cross-subject-view (csv) show that PTMA achieves state-of-the-art performance on the DAHLIA, IKEA ASM, and Breakfast datasets.
- Abstract(参考訳): コンピュータビジョンにおける映像シーケンス分類における重要な課題として,オンライン行動検出(OAD)が注目されている。
主要なOADモデルの様々なビデオ視点に対する感度は、目に見えないソースに直面すると一般化を阻害することが多い。
この制限に対処するために,確率モデルを利用してビデオフレームの潜在圧縮表現をクロスビューで導出する,新しい確率的仮面注意(PTMA)モデルを提案する。
PTMAモデルは、GRUベースの時間マスキングアテンション(TMA)セルを組み込み、これらの表現を活用して、入力されたビデオシーケンスを効率的にクエリし、情報相互作用の強化と自己回帰的なフレームレベルのビデオ解析を容易にする。
さらに、多視点情報を確率的モデリングに統合し、ビュー不変特徴の抽出を容易にする。
クロスオブジェクト(cs)、クロスビュー(cv)、クロスオブジェクトビュー(csv)の3つの評価プロトコルで実施された実験は、PTMAがDAHLIA、IKEA ASM、Breakfastデータセット上で最先端のパフォーマンスを達成することを示す。
関連論文リスト
- From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。
新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文 参考訳(メタデータ) (2025-01-28T14:52:10Z) - Spatio-temporal Transformers for Action Unit Classification with Event Cameras [28.98336123799572]
本稿では,RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
論文 参考訳(メタデータ) (2024-10-29T11:23:09Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。