論文の概要: LiquidTAD: Efficient Temporal Action Detection via Parallel Liquid-Inspired Temporal Relaxation
- arxiv url: http://arxiv.org/abs/2604.18274v2
- Date: Mon, 27 Apr 2026 02:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 21:46:41.456592
- Title: LiquidTAD: Efficient Temporal Action Detection via Parallel Liquid-Inspired Temporal Relaxation
- Title(参考訳): LiquidTAD: 並列液体誘発時間緩和による効率的な時間的行動検出
- Authors: Zepeng Sun, Naichuan Zheng, Hailun Xia, Junjie Wu, Liwei Bao, Xiaotai Zhang,
- Abstract要約: LiquidTADは、液体神経力学以前の指数緩和を並列時間演算子に蒸留するフレームワークである。
LiquidTADは、モデルフットプリントを大幅に低下させながら、強力なベースラインと競合する精度を達成する。
- 参考スコア(独自算出の注目度): 2.3837169660687123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Detection (TAD) requires precise localization of action boundaries within long, untrimmed video sequences. While current high-performing methods achieve strong accuracy, they are often characterized by excessive parameter counts, substantial computational overhead, and a reliance on specialized operators that hinder deployment across diverse hardware platforms. This paper presents LiquidTAD, a framework that distills the exponential relaxation prior of liquid neural dynamics into a parallel temporal operator, rather than reproducing full Liquid Neural Network (LNN) dynamics. By introducing a Parallel Liquid-inspired Relaxation mechanism, sequential ODE solving is avoided through a fully vectorized, non-recursive formulation built entirely upon standard neural operations, enabling hardware-agnostic deployment with linear complexity with respect to the temporal length. A complementary Hierarchical Decay-Rate Sharing Strategy further adapts this relaxation prior across feature pyramid levels, stabilizing optimization and implicitly compensating for temporal compression in deeper layers. Experimental evaluations on THUMOS-14 and ActivityNet-1.3 demonstrate that LiquidTAD achieves accuracy competitive with strong baselines while substantially lowering the model footprint. Specifically, on THUMOS-14, LiquidTAD achieves 69.46\% average mAP with only 10.82M parameters and 27.17G FLOPs, reducing the parameter count by over 60\% compared with ActionFormer.
- Abstract(参考訳): 時間的行動検出(TAD)は、長い、トリミングされていないビデオシーケンス内でのアクション境界の正確な位置決めを必要とする。
現在のハイパフォーマンス手法は高い精度を達成するが、過度なパラメータ数、かなりの計算オーバーヘッド、様々なハードウェアプラットフォームへの展開を妨げる特別な演算子に依存することが特徴である。
本稿では, フルリキッドニューラルネットワーク(LNN)のダイナミクスを再現する代わりに, 液体ニューラルダイナミクスの指数緩和を並列時間演算子に蒸留するフレームワークであるLiquidTADを提案する。
Parallel Liquid-inspired Relaxation機構を導入することで、シーケンシャルODE解決は、標準の神経操作をベースとした完全にベクトル化された非再帰的な定式化によって回避される。
補完的な階層的なDecay-Rate Sharing戦略は、この機能ピラミッドレベルを越えて、この緩和に先立って適応し、最適化を安定化し、より深い層での時間的圧縮を暗黙的に補償する。
THUMOS-14とActivityNet-1.3の実験的評価により、LiquidTADは強力なベースラインと競合し、モデルのフットプリントを大幅に低下させる。
具体的にはTHUMOS-14では、LiquidTADは平均mAPを69.46 %、パラメータは10.82M、FLOPは27.17Gで、ActionFormerに比べて60 %以上減少する。
関連論文リスト
- PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Physics-informed Multiple-Input Operators for efficient dynamic response prediction of structures [0.07916635054977067]
MIONetは空間と時間の両方で連続的に構造的応答を予測する。
モデルは単純なビームとKW-51ブリッジの両方で検証され、FEMレベルの精度は数秒で達成される。
論文 参考訳(メタデータ) (2025-05-11T18:45:58Z) - Hybrid machine learning models based on physical patterns to accelerate CFD simulations: a short guide on autoregressive models [3.780691701083858]
本研究では,Long Short-Term Memory (LSTM) アーキテクチャと高次特異値分解を革新的に統合し,流体力学における低次モデリング(ROM)の複雑さに対処する。
この手法は、2次元および3次元のシリンダー流(2次元および3次元)を含む数値的および実験的なデータセットで試験される。
その結果、HOSVDは、異なるエラーメトリクスを用いて証明されたように、すべてのテストシナリオでSVDより優れていることが示された。
論文 参考訳(メタデータ) (2025-04-09T10:56:03Z) - AMR-Transformer: Enabling Efficient Long-range Interaction for Complex Neural Fluid Simulation [33.63726923336252]
本稿では,AMR-Transformerを提案する。
これは、Navier-Stokes制約を意識した高速刈取モジュールと、新しい適応メッシュリファインメントスキームを統合している。
提案手法は,ベースラインモデルよりも精度が向上する。
論文 参考訳(メタデータ) (2025-03-13T11:16:42Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
本稿では,時系列予測のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。