論文の概要: Post-Processing Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2211.14924v1
- Date: Sun, 27 Nov 2022 19:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:30:28.996313
- Title: Post-Processing Temporal Action Detection
- Title(参考訳): 処理後の時間的動作検出
- Authors: Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang
- Abstract要約: 時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
- 参考スコア(独自算出の注目度): 134.26292288193298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Temporal Action Detection (TAD) methods typically take a
pre-processing step in converting an input varying-length video into a
fixed-length snippet representation sequence, before temporal boundary
estimation and action classification. This pre-processing step would temporally
downsample the video, reducing the inference resolution and hampering the
detection performance in the original temporal resolution. In essence, this is
due to a temporal quantization error introduced during the resolution
downsampling and recovery. This could negatively impact the TAD performance,
but is largely ignored by existing methods. To address this problem, in this
work we introduce a novel model-agnostic post-processing method without model
redesign and retraining. Specifically, we model the start and end points of
action instances with a Gaussian distribution for enabling temporal boundary
inference at a sub-snippet level. We further introduce an efficient
Taylor-expansion based approximation, dubbed as Gaussian Approximated
Post-processing (GAP). Extensive experiments demonstrate that our GAP can
consistently improve a wide variety of pre-trained off-the-shelf TAD models on
the challenging ActivityNet (+0.2% -0.7% in average mAP) and THUMOS (+0.2%
-0.5% in average mAP) benchmarks. Such performance gains are already
significant and highly comparable to those achieved by novel model designs.
Also, GAP can be integrated with model training for further performance gain.
Importantly, GAP enables lower temporal resolutions for more efficient
inference, facilitating low-resource applications. The code will be available
in https://github.com/sauradip/GAP
- Abstract(参考訳): 既存の時間的動作検出(tad)法は、通常、入力された可変長映像を時間的境界推定と行動分類の前に固定長スニペット表現列に変換する前処理ステップを取る。
この前処理ステップは、ビデオの時間的サンプルを減らし、推論解像度を減少させ、元の時間的解像度における検出性能を阻害する。
本質的にこれは、分解ダウンサンプリングとリカバリの間に導入された時間量子化誤差によるものである。
これはTADのパフォーマンスに悪影響を及ぼす可能性があるが、既存の手法では無視されている。
この問題に対処するため,本研究では,モデル再設計や再トレーニングを行わずに,新しいモデル非依存な後処理手法を提案する。
具体的には,アクションインスタンスの開始点と終了点をガウス分布でモデル化し,サブスニペットレベルで時間境界推論を可能にする。
さらに,ガウス近似ポストプロセッシング (GAP) と呼ばれるTaylor-Expansion に基づく効率的な近似を導入する。
我々のGAPは、挑戦的なActivityNet(平均mAPでは+0.2% -0.7%)とTHUMOS(平均mAPでは+0.2% -0.5%)のベンチマークで、幅広い事前訓練済みのTADモデルを継続的に改善できることを示した。
このような性能向上はすでに重要であり、斬新なモデル設計によって達成されたものと非常に同等である。
また、GAPはさらなるパフォーマンス向上のためにモデルトレーニングと統合することができる。
重要なことは、GAPはより効率的な推論のための低時間解像度を可能にし、低リソースアプリケーションを容易にします。
コードはhttps://github.com/sauradip/GAPで入手できる。
関連論文リスト
- Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - Preconditioned Score-based Generative Models [49.88840603798831]
直感的な加速度法はサンプリングの繰り返しを減らし、しかしながら重大な性能劣化を引き起こす。
本稿では,行列プレコンディショニングを利用したモデル非依存型bfem事前条件拡散サンプリング(PDS)手法を提案する。
PDSは、バニラSGMのサンプリングプロセスを限界余剰計算コストで変更し、モデルの再訓練を行わない。
論文 参考訳(メタデータ) (2023-02-13T16:30:53Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - Cadence: A Practical Time-series Partitioning Algorithm for Unlabeled
IoT Sensor Streams [1.2330326247154968]
提案アルゴリズムは,異なるアプリケーションにわたる時系列イベントを頑健に検出できることを示す。
環境検知に基づくアクティビティ認識のための実世界のIoTデプロイメントにおいて、その適用性を実証する。
論文 参考訳(メタデータ) (2021-12-06T21:13:18Z) - Reducing the Amortization Gap in Variational Autoencoders: A Bayesian
Random Function Approach [38.45568741734893]
GPモデルの推論は、セミアモタイズ法よりもはるかに高速な1つのフィードフォワードパスによって行われる。
提案手法は,複数のベンチマークデータセットの最先端データよりも高い確率でテストデータが得られることを示す。
論文 参考訳(メタデータ) (2021-02-05T13:01:12Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。