論文の概要: Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism
- arxiv url: http://arxiv.org/abs/2407.13078v1
- Date: Thu, 18 Jul 2024 00:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:13:43.365114
- Title: Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism
- Title(参考訳): 時間的アクションローカライゼーションの強化:リカレントメカニズムによる高度なS6モデリング
- Authors: Sangyoun Lee, Juho Jung, Changdae Oh, Sunghee Yun,
- Abstract要約: TALはビデオ分析において重要なタスクであり、アクションの開始と終了の正確な時間を特定する。
選択状態空間モデル(S6)を利用した新しいtalアーキテクチャを提案する。
提案手法は,特徴集約型Bi-S6ブロック,デュアルBi-S6構造,時間的およびチャネル的依存性モデリングを強化するための繰り返し機構を統合する。
- 参考スコア(独自算出の注目度): 14.080817847457434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Localization (TAL) is a critical task in video analysis, identifying precise start and end times of actions. Existing methods like CNNs, RNNs, GCNs, and Transformers have limitations in capturing long-range dependencies and temporal causality. To address these challenges, we propose a novel TAL architecture leveraging the Selective State Space Model (S6). Our approach integrates the Feature Aggregated Bi-S6 block, Dual Bi-S6 structure, and a recurrent mechanism to enhance temporal and channel-wise dependency modeling without increasing parameter complexity. Extensive experiments on benchmark datasets demonstrate state-of-the-art results with mAP scores of 74.2% on THUMOS-14, 42.9% on ActivityNet, 29.6% on FineAction, and 45.8% on HACS. Ablation studies validate our method's effectiveness, showing that the Dual structure in the Stem module and the recurrent mechanism outperform traditional approaches. Our findings demonstrate the potential of S6-based models in TAL tasks, paving the way for future research.
- Abstract(参考訳): 時間的行動局所化(TAL)は、ビデオ分析において重要な課題であり、アクションの開始と終了の正確な時間を特定する。
CNN、RNN、GCN、Transformerといった既存の方法には、長距離依存関係と時間的因果関係をキャプチャする制限がある。
これらの課題に対処するために、選択状態空間モデル(S6)を利用した新しいTALアーキテクチャを提案する。
提案手法では,パラメータの複雑さを増大させることなく,時間的およびチャネル的依存性のモデリングを改善するために,Feature Aggregated Bi-S6ブロック,Dual Bi-S6構造と繰り返し機構を統合する。
ベンチマークデータセットの大規模な実験では、THUMOS-14で74.2%、ActivityNetで42.9%、FineActionで29.6%、HACSで45.8%のmAPスコアが得られた。
アブレーション研究により,Stemモジュールのデュアル構造とリカレント機構が従来の手法よりも優れていることを示す。
本研究は,S6-based model の TAL タスクにおける可能性を示し,今後の研究への道を開くものである。
関連論文リスト
- Autoregressive Moving-average Attention Mechanism for Time Series Forecasting [9.114664059026767]
本稿では,各種の線形アテンション機構に適応可能な自己回帰(AR)移動平均アテンション構造を提案する。
本稿では、まず、時系列予測(TSF)タスクに対して、これまで見過ごされていたデコーダのみの自己回帰変換モデルが、最良のベースラインに匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2024-10-04T05:45:50Z) - VFIMamba: Video Frame Interpolation with State Space Models [22.862119532060856]
フレーム間モデリングはビデオフレーム(VFI)の中間フレーム生成において重要である
S6(Selective State Space Models)が登場し、ロングシーケンスモデリングに特化している。
本稿では,S6モデルを用いたフレーム間モデリングのための新しいフレーム手法であるVFIMambaを提案する。
論文 参考訳(メタデータ) (2024-07-02T14:48:18Z) - Boosting X-formers with Structured Matrix for Long Sequence Time Series Forecasting [7.3758245014991255]
本稿では,Surrogate Attention Blocks (SAB)とSurrogate Feed-Forward Neural Network Blocks (SFB)を統合してトランスフォーマーモデルを強化する新しいアーキテクチャフレームワークを提案する。
5つの異なる時系列タスクにわたる9つのトランスフォーマー変種の実験では、平均性能は9.45%向上し、モデルサイズは46%減少した。
論文 参考訳(メタデータ) (2024-05-21T02:37:47Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - A hemodynamic decomposition model for detecting cognitive load using
functional near-infrared spectroscopy [4.6242112054242925]
本研究では,機能近赤外分光のためのパラメトリックデータ駆動モデルを導入し,信号の独立性,再スケール性,時間シフト性,血行力学的基底関数に分解する。
FNIRS信号の認知負荷分類タスクに先進的HDMを適用することにより,86.20%+-2.56%の精度を実現した。
論文 参考訳(メタデータ) (2020-01-22T18:56:23Z) - A Comprehensive Study on Temporal Modeling for Online Action Detection [50.558313106389335]
オンライン行動検出(OAD)は実用的だが難しい課題であり、近年注目を集めている。
本稿では,4種類の時間的モデリング手法を含むOADの時間的モデリングに関する総合的研究を提案する。
本稿では,THUMOS-14 と TVSeries に対して,近年の最先端手法よりも大きなマージンを有するハイブリッド時間モデルを提案する。
論文 参考訳(メタデータ) (2020-01-21T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。