論文の概要: Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization
- arxiv url: http://arxiv.org/abs/2511.03943v3
- Date: Fri, 14 Nov 2025 01:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 15:29:13.551965
- Title: Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization
- Title(参考訳): 時間的ズームネットワーク:効率的な行動局所化のための距離回帰と連続深さ
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: 時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization requires both precise boundary detection and computational efficiency. Current methods apply uniform computation across all temporal positions, wasting resources on easy boundaries while struggling with ambiguous ones. We address this through two complementary innovations: Boundary Distance Regression (BDR), which replaces classification-based boundary detection with signed-distance regression achieving 3.3--16.7$\times$ lower variance; and Adaptive Temporal Refinement (ATR), which allocates transformer depth continuously ($τ\in[0,1]$) to concentrate computation near difficult boundaries. On THUMOS14, our method achieves 56.5\% mAP@0.7 and 58.2\% average mAP@[0.3:0.7] with 151G FLOPs, using 36\% fewer FLOPs than ActionFormer++ (55.7\% mAP@0.7 at 235G). Compared to uniform baselines, we achieve +2.9\% mAP@0.7 (+1.8\% avg mAP, 5.4\% relative) with 24\% fewer FLOPs and 29\% lower latency, with particularly strong gains on short actions (+4.2\%, 8.6\% relative). Training requires 1.29$\times$ baseline FLOPs, but this one-time cost is amortized over many inference runs; knowledge distillation further reduces this to 1.1$\times$ while retaining 99.5\% accuracy. Our contributions include: (i) a theoretically-grounded distance formulation with information-theoretic analysis showing optimal variance scaling; (ii) a continuous depth allocation mechanism avoiding discrete routing complexity; and (iii) consistent improvements across four datasets with gains correlating with boundary heterogeneity.
- Abstract(参考訳): 時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
現在の手法では、全ての時間的位置を均一に計算し、曖昧な部分で苦労しながら、容易に境界に資源を浪費する。
分類に基づく境界検出を3.3--16.7$\times$低分散に置き換える境界距離回帰(BDR)と、変圧器の深さを連続的に(τ\in[0,1]$)割り当てる適応時間制限(ATR)である。
THUMOS14 では,平均 mAP@0.7 と 58.2\% の平均 mAP@[0.3:0.7] を 151G FLOP で達成し,ActionFormer++ (55.7\% mAP@0.7 at 235G) よりも36.% FLOP を削減した。
均一なベースラインと比較すると、+2.9\% mAP@0.7(+1.8\% avg mAP, 5.4\%)で、FLOPが24\%少なく、レイテンシが29\%低い。
トレーニングには1.29$\times$ベースラインFLOPが必要であるが、この1回限りのコストは多くの推論ランに対して償却され、知識蒸留により99.5\%の精度を維持しながら1.1$\times$に減らされる。
コントリビューションには以下のものがある。
(i)最適分散スケーリングを示す情報理論解析を用いた理論基底距離定式化
(二)離散的なルーティングの複雑さを避けるための連続的な深さ配分機構、及び
3) 境界の不均一性に関連するゲインを持つ4つのデータセット間の一貫した改善。
関連論文リスト
- EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration [17.190325630307097]
本稿では指数デカイ基底関数を用いた自由形変形を用いた指数デカイ自由形変形ネットワーク(EDFFDNet)を提案する。
密接な相互作用をスパースなものにすることで、ASMAはパラメータを減らし、精度を向上させる。
EDFFDNetは、パラメータ、メモリ、総ランタイムをそれぞれ70.5%、32.6%、33.7%削減することを示した。
EDFFDNet-2はより少ない計算コストを維持しながらPSNRを1.06dB改善する。
論文 参考訳(メタデータ) (2025-09-09T12:30:51Z) - SGAD: Semantic and Geometric-aware Descriptor for Local Feature Matching [16.683203139962153]
本稿では,領域ベースのマッチングを根本的に再考するSemantic and Geometric-aware Descriptor Network (SGAD)を紹介する。
SGADは、複雑なグラフの最適化なしに直接マッチングを可能にする、高度に識別可能な領域記述子を生成する。
我々は、領域マッチングタスクを分類とランク付けサブタスクに分解する新しい監督戦略により、領域マッチングの性能をさらに改善する。
論文 参考訳(メタデータ) (2025-08-04T10:46:53Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - Integral Continual Learning Along the Tangent Vector Field of Tasks [112.02761912526734]
本稿では,特殊データセットからの情報を段階的に組み込んだ軽量連続学習手法を提案する。
ソースデータセットの0.4%まで小さく、小さな固定サイズのメモリバッファを保持しており、単純な再サンプリングによって更新される。
提案手法は,異なるデータセットに対して,様々なバッファサイズで高い性能を実現する。
論文 参考訳(メタデータ) (2022-11-23T16:49:26Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Second-Order Provable Defenses against Adversarial Attacks [63.34032156196848]
ネットワークの固有値が有界であれば、凸最適化を用いて$l$ノルムの証明を効率的に計算できることを示す。
認証精度は5.78%,44.96%,43.19%であった。
論文 参考訳(メタデータ) (2020-06-01T05:55:18Z) - ScopeFlow: Dynamic Scene Scoping for Optical Flow [94.42139459221784]
我々は,光流の一般的なトレーニングプロトコルを変更することを提案する。
この改善は、挑戦的なデータをサンプリングする際のバイアスを観察することに基づいている。
トレーニングプロトコルでは,正規化と拡張の双方が減少することが判明した。
論文 参考訳(メタデータ) (2020-02-25T09:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。