論文の概要: Efficient Spatial-Temporal Focal Adapter with SSM for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2604.09164v1
- Date: Fri, 10 Apr 2026 09:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.808278
- Title: Efficient Spatial-Temporal Focal Adapter with SSM for Temporal Action Detection
- Title(参考訳): 時空間行動検出のためのSSMを用いた空間時空間適応器
- Authors: Yicheng Qiu, Keiji Yanai,
- Abstract要約: 時間的人間の行動検出は、未トリミングビデオ内のアクションセグメントを識別し、ローカライズすることを目的としている。
CNNやTransformerモデルのような以前のアーキテクチャは、機能冗長性とグローバルな依存性モデリング機能に苦慮していた。
本研究では,状態空間モデルを用いた映像人間の行動検出のための新しい枠組みを構築した。
- 参考スコア(独自算出の注目度): 6.008736333630327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal human action detection aims to identify and localize action segments within untrimmed videos, serving as a pivotal task in video understanding. Despite the progress achieved by prior architectures like CNN and Transformer models, these continue to struggle with feature redundancy and degraded global dependency modeling capabilities when applied to long video sequences. These limitations severely constrain their scalability in real-world video analysis. State Space Models (SSMs) offer a promising alternative with linear long-term modeling and robust global temporal reasoning capabilities. Rethinking the application of SSMs in temporal modeling, this research constructs a novel framework for video human action detection. Specifically, we introduce the Efficient Spatial-Temporal Focal (ESTF) Adapter into the pre-trained layers. This module integrates the advantages of our proposed Temporal Boundary-aware SSM(TB-SSM) for temporal feature modeling with efficient processing of spatial features. We perform comprehensive and quantitative analyses across multiple benchmarks, comparing our proposed method against previous SSM-based and other structural methods. Extensive experiments demonstrate that our improved strategy significantly enhances both localization performance and robustness, validating the effectiveness of our proposed method.
- Abstract(参考訳): 時間的人間の行動検出は、ビデオ理解において重要なタスクとして機能し、ビデオ内のアクションセグメントを特定し、ローカライズすることを目的としている。
CNNやTransformerモデルのような以前のアーキテクチャによって達成された進歩にもかかわらず、長いビデオシーケンスに適用した場合、機能冗長性と世界的な依存性モデリング機能に苦戦し続けている。
これらの制限は、現実世界のビデオ解析におけるスケーラビリティを著しく制限する。
State Space Models (SSM) は、線形長期モデリングと堅牢なグローバル時間的推論機能を備えた有望な代替手段を提供する。
本研究は、時間的モデリングにおけるSSMの適用を再考し、ビデオヒューマンアクション検出のための新しい枠組みを構築した。
具体的には、事前学習層に効率的な空間時間焦点適応器(ESTF)を導入する。
本モジュールは,空間特徴の効率的な処理による時間的特徴モデリングのための時間境界対応SSM(TB-SSM)の利点を統合する。
提案手法を従来のSSMおよびその他の構造手法と比較し,複数のベンチマークで包括的かつ定量的に分析する。
その結果,提案手法の有効性を検証し,局所化性能とロバスト性の両方を大幅に向上させることが実証された。
関連論文リスト
- Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling [53.199942923818206]
ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。
SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示す。
我々は,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
論文 参考訳(メタデータ) (2025-08-20T10:46:01Z) - Artificial Intelligence-Based Multiscale Temporal Modeling for Anomaly Detection in Cloud Services [10.421371572062595]
本研究では,マルチスケール特徴認識を統合したTransformerアーキテクチャに基づく異常検出手法を提案する。
提案手法は,精度,リコール,AUC,F1スコアなどの主要な指標において,主流のベースラインモデルより優れている。
論文 参考訳(メタデータ) (2025-08-20T07:52:36Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。
16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。
我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文 参考訳(メタデータ) (2025-05-20T14:18:56Z) - MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。
新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文 参考訳(メタデータ) (2025-01-28T14:52:10Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。