論文の概要: Efficient Spatial-Temporal Modeling for Real-Time Video Analysis: A Unified Framework for Action Recognition and Object Tracking
- arxiv url: http://arxiv.org/abs/2507.22421v1
- Date: Wed, 30 Jul 2025 06:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.043165
- Title: Efficient Spatial-Temporal Modeling for Real-Time Video Analysis: A Unified Framework for Action Recognition and Object Tracking
- Title(参考訳): リアルタイムビデオ解析のための効率的な空間時間モデリング:行動認識と物体追跡のための統一フレームワーク
- Authors: Shahla John,
- Abstract要約: リアルタイムビデオ分析はコンピュータビジョンにおいて依然として難しい問題である。
本稿では,行動認識と物体追跡を同時に行うために,高度な時空間モデリング技術を活用する統合フレームワークを提案する。
提案手法は,リアルタイムの推論速度を維持しながら,標準ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-time video analysis remains a challenging problem in computer vision, requiring efficient processing of both spatial and temporal information while maintaining computational efficiency. Existing approaches often struggle to balance accuracy and speed, particularly in resource-constrained environments. In this work, we present a unified framework that leverages advanced spatial-temporal modeling techniques for simultaneous action recognition and object tracking. Our approach builds upon recent advances in parallel sequence modeling and introduces a novel hierarchical attention mechanism that adaptively focuses on relevant spatial regions across temporal sequences. We demonstrate that our method achieves state-of-the-art performance on standard benchmarks while maintaining real-time inference speeds. Extensive experiments on UCF-101, HMDB-51, and MOT17 datasets show improvements of 3.2% in action recognition accuracy and 2.8% in tracking precision compared to existing methods, with 40% faster inference time.
- Abstract(参考訳): リアルタイムビデオ解析はコンピュータビジョンにおいて依然として困難な問題であり、計算効率を維持しながら空間情報と時間情報の双方を効率的に処理する必要がある。
既存のアプローチは、特に資源制約のある環境で、正確性とスピードのバランスをとるのに苦労することが多い。
本研究では,行動認識と物体追跡を同時に行うために,高度な時空間モデリング技術を活用する統合フレームワークを提案する。
提案手法は並列シーケンスモデリングの最近の進歩を基盤として,時間的シーケンスにまたがる空間領域に適応的に焦点をあてる新しい階層型アテンション機構を導入している。
提案手法は,リアルタイムの推論速度を維持しながら,標準ベンチマークにおける最先端性能を実現することを実証する。
UCF-101、HMDB-51、MOT17データセットの大規模な実験では、既存の手法と比較してアクション認識精度が3.2%改善し、追跡精度が2.8%向上し、推論時間が40%速くなった。
関連論文リスト
- CAST: Cross-Attentive Spatio-Temporal feature fusion for Deepfake detection [0.0]
CNNは空間的アーティファクトのキャプチャに有効であり、Transformerは時間的不整合のモデリングに優れている。
本稿では,空間的特徴と時間的特徴を効果的に融合させるために,クロスアテンションを利用した統合CASTモデルを提案する。
我々はFaceForensics++、Celeb-DF、DeepfakeDetectionデータセットを用いてモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-06-26T18:51:17Z) - Mitigating Trade-off: Stream and Query-guided Aggregation for Efficient and Effective 3D Occupancy Prediction [12.064509280163502]
3Dの占有率予測は、自動運転の重要な認識課題として浮上している。
近年の研究では、過去の観測から得られた情報の統合に焦点が当てられ、予測精度が向上している。
本稿では,過去の情報をストリームベースで集約するフレームワークStreamOccを提案する。
Occ3D-nusデータセットの実験によると、StreamOccはリアルタイム設定で最先端のパフォーマンスを実現し、メモリ使用量を従来の方法に比べて50%以上削減している。
論文 参考訳(メタデータ) (2025-03-28T02:05:53Z) - CAST: Cross-Attention in Space and Time for Video Action Recognition [8.785207228156098]
空間時間におけるクロスアテンション(CAST)と呼ばれる新しい2ストリームアーキテクチャを提案する。
CASTは、バランスの取れた入力のみを使用して、ビデオの時間的バランスの取れた理解を実現する。
提案手法により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となる。
論文 参考訳(メタデータ) (2023-11-30T18:58:51Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal
Action Localization [0.9507070656654633]
ビデオにおけるリアルタイムおよびオンラインのアクションローカライゼーションは、非常に難しい問題である。
近年の試みでは、計算集約的な3D CNNアーキテクチャや、光流を伴う高冗長な2ストリームアーキテクチャを用いて実現されている。
本稿では,高速かつ効率的なキーポイントベースバウンディングボックス予測を用いて行動の空間的ローカライズを提案する。
我々のモデルは41.8FPSのフレームレートを実現しており、これは現代のリアルタイム手法よりも10.7%改善されている。
論文 参考訳(メタデータ) (2021-11-05T08:39:36Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection [87.32774157186412]
メインストリーム方式は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
本稿では,このような改善を実現するための時間的ネットワークを提案する。
提案手法は実装が簡単で,50FPSで高精細度をリアルタイムに検出できる。
論文 参考訳(メタデータ) (2020-08-07T03:24:04Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。