論文の概要: Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization
- arxiv url: http://arxiv.org/abs/2511.03943v2
- Date: Sun, 09 Nov 2025 10:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.549378
- Title: Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization
- Title(参考訳): 時間的ズームネットワーク:効率的な行動局所化のための距離回帰と連続深さ
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: 境界距離回帰(BDR)は、分類を符号付き距離回帰とゼロクロス抽出に置き換える。
BDRは約50行のコードで既存のメソッドに適合し、mAP@0.7を1.8から3.1%改善する(平均+2.4)。
THUMOS14では151GのFLOPで56.5%のmAP@0.7、Uniform-6の198Gで53.6%を達成した。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization requires precise boundaries, yet most methods apply uniform computation despite varying boundary difficulty. We propose two complementary contributions. Boundary Distance Regression (BDR) replaces classification with signed-distance regression and zero-crossing extraction. Under idealized assumptions (i.i.d. Laplace noise, uniform stride, sufficient capacity), BDR approaches the Cramer-Rao lower bound, yielding variance on the order of (Delta t)^2 / T (appearing as O((Delta t)^2) for fixed-video inference). The variance ratio R = Var[b_BDR] / Var[b_cls] scales as O((Delta t)^2 / W) for plateau width W approx 2*kappa, with empirical scaling appearing stronger (O((Delta t)^2 / W^2)) due to amplification factors (see Section~4). Empirically, BDR reduces boundary variance by 3.3x to 16.7x (R = 0.06 to 0.30) via four amplification factors. BDR retrofits to existing methods with about 50 lines of code, improving mAP@0.7 by 1.8 to 3.1 percent (average +2.4). Adaptive Temporal Refinement (ATR) learns continuous depth allocation tau in [0,1] to adapt computation, avoiding discrete routing complexity. On THUMOS14, ATR achieves 56.5 percent mAP@0.7 at 151G FLOPs versus 53.6 percent at 198G for the Uniform-6 baseline (24 percent FLOPs reduction, 118 ms vs. 167 ms latency). Gains scale with boundary heterogeneity: THUMOS14 (+2.9), FineAction (+2.7), ActivityNet (+1.8). Training overhead (1.29x baseline) is mitigated via knowledge distillation, with students retaining 99.5 percent performance. Code will be released.
- Abstract(参考訳): 時間的行動の局所化は正確な境界を必要とするが、ほとんどの手法は境界の難易度が異なるにもかかわらず一様計算を適用する。
我々は2つの補完的な貢献を提案する。
境界距離回帰(BDR)は、分類を符号付き距離回帰とゼロクロス抽出に置き換える。
理想的な仮定(すなわち、ラプラスノイズ、一様ストライド、十分なキャパシティ)の下で、BDRは、(Delta t)^2 / T の順序で(固定ビデオ推論のために O((Delta t)^2) として現れる)クラマー・ラオの下界に近づく。
分散比R = Var[b_BDR] / Var[b_cls] は、高原幅Wの O((Delta t)^2 / W) としてスケールし、増幅因子により経験的スケーリングが強く(O((Delta t)^2 / W^2))現れる(第4節参照)。
経験的に、BDRは4つの増幅因子によって境界分散を3.3xから16.7x(R = 0.06から 0.30)に減少させる。
BDRは約50行のコードで既存のメソッドに適合し、mAP@0.7を1.8から3.1%改善した(平均+2.4)。
Adaptive Temporal Refinement (ATR)は[0,1]で連続的な深さ割り当てタウを学習し、計算を適応させ、離散的なルーティングの複雑さを避ける。
THUMOS14では、151GのFLOPでは56.5% mAP@0.7、Uniform-6の198Gでは53.6%である(FLOPは24%、FLOPは118ms、レイテンシは167ms)。
境界の不均一性:THUMOS14 (+2.9), FineAction (+2.7), ActivityNet (+1.8)。
訓練のオーバーヘッド(1.29倍のベースライン)は知識蒸留によって軽減され、学生は99.5%のパフォーマンスを維持している。
コードはリリースされる。
関連論文リスト
- EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration [17.190325630307097]
本稿では指数デカイ基底関数を用いた自由形変形を用いた指数デカイ自由形変形ネットワーク(EDFFDNet)を提案する。
密接な相互作用をスパースなものにすることで、ASMAはパラメータを減らし、精度を向上させる。
EDFFDNetは、パラメータ、メモリ、総ランタイムをそれぞれ70.5%、32.6%、33.7%削減することを示した。
EDFFDNet-2はより少ない計算コストを維持しながらPSNRを1.06dB改善する。
論文 参考訳(メタデータ) (2025-09-09T12:30:51Z) - SGAD: Semantic and Geometric-aware Descriptor for Local Feature Matching [16.683203139962153]
本稿では,領域ベースのマッチングを根本的に再考するSemantic and Geometric-aware Descriptor Network (SGAD)を紹介する。
SGADは、複雑なグラフの最適化なしに直接マッチングを可能にする、高度に識別可能な領域記述子を生成する。
我々は、領域マッチングタスクを分類とランク付けサブタスクに分解する新しい監督戦略により、領域マッチングの性能をさらに改善する。
論文 参考訳(メタデータ) (2025-08-04T10:46:53Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - Integral Continual Learning Along the Tangent Vector Field of Tasks [112.02761912526734]
本稿では,特殊データセットからの情報を段階的に組み込んだ軽量連続学習手法を提案する。
ソースデータセットの0.4%まで小さく、小さな固定サイズのメモリバッファを保持しており、単純な再サンプリングによって更新される。
提案手法は,異なるデータセットに対して,様々なバッファサイズで高い性能を実現する。
論文 参考訳(メタデータ) (2022-11-23T16:49:26Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Second-Order Provable Defenses against Adversarial Attacks [63.34032156196848]
ネットワークの固有値が有界であれば、凸最適化を用いて$l$ノルムの証明を効率的に計算できることを示す。
認証精度は5.78%,44.96%,43.19%であった。
論文 参考訳(メタデータ) (2020-06-01T05:55:18Z) - ScopeFlow: Dynamic Scene Scoping for Optical Flow [94.42139459221784]
我々は,光流の一般的なトレーニングプロトコルを変更することを提案する。
この改善は、挑戦的なデータをサンプリングする際のバイアスを観察することに基づいている。
トレーニングプロトコルでは,正規化と拡張の双方が減少することが判明した。
論文 参考訳(メタデータ) (2020-02-25T09:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。