論文の概要: Post-Processing Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2211.14924v1
- Date: Sun, 27 Nov 2022 19:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:30:28.996313
- Title: Post-Processing Temporal Action Detection
- Title(参考訳): 処理後の時間的動作検出
- Authors: Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang
- Abstract要約: 時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
- 参考スコア(独自算出の注目度): 134.26292288193298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Temporal Action Detection (TAD) methods typically take a
pre-processing step in converting an input varying-length video into a
fixed-length snippet representation sequence, before temporal boundary
estimation and action classification. This pre-processing step would temporally
downsample the video, reducing the inference resolution and hampering the
detection performance in the original temporal resolution. In essence, this is
due to a temporal quantization error introduced during the resolution
downsampling and recovery. This could negatively impact the TAD performance,
but is largely ignored by existing methods. To address this problem, in this
work we introduce a novel model-agnostic post-processing method without model
redesign and retraining. Specifically, we model the start and end points of
action instances with a Gaussian distribution for enabling temporal boundary
inference at a sub-snippet level. We further introduce an efficient
Taylor-expansion based approximation, dubbed as Gaussian Approximated
Post-processing (GAP). Extensive experiments demonstrate that our GAP can
consistently improve a wide variety of pre-trained off-the-shelf TAD models on
the challenging ActivityNet (+0.2% -0.7% in average mAP) and THUMOS (+0.2%
-0.5% in average mAP) benchmarks. Such performance gains are already
significant and highly comparable to those achieved by novel model designs.
Also, GAP can be integrated with model training for further performance gain.
Importantly, GAP enables lower temporal resolutions for more efficient
inference, facilitating low-resource applications. The code will be available
in https://github.com/sauradip/GAP
- Abstract(参考訳): 既存の時間的動作検出(tad)法は、通常、入力された可変長映像を時間的境界推定と行動分類の前に固定長スニペット表現列に変換する前処理ステップを取る。
この前処理ステップは、ビデオの時間的サンプルを減らし、推論解像度を減少させ、元の時間的解像度における検出性能を阻害する。
本質的にこれは、分解ダウンサンプリングとリカバリの間に導入された時間量子化誤差によるものである。
これはTADのパフォーマンスに悪影響を及ぼす可能性があるが、既存の手法では無視されている。
この問題に対処するため,本研究では,モデル再設計や再トレーニングを行わずに,新しいモデル非依存な後処理手法を提案する。
具体的には,アクションインスタンスの開始点と終了点をガウス分布でモデル化し,サブスニペットレベルで時間境界推論を可能にする。
さらに,ガウス近似ポストプロセッシング (GAP) と呼ばれるTaylor-Expansion に基づく効率的な近似を導入する。
我々のGAPは、挑戦的なActivityNet(平均mAPでは+0.2% -0.7%)とTHUMOS(平均mAPでは+0.2% -0.5%)のベンチマークで、幅広い事前訓練済みのTADモデルを継続的に改善できることを示した。
このような性能向上はすでに重要であり、斬新なモデル設計によって達成されたものと非常に同等である。
また、GAPはさらなるパフォーマンス向上のためにモデルトレーニングと統合することができる。
重要なことは、GAPはより効率的な推論のための低時間解像度を可能にし、低リソースアプリケーションを容易にします。
コードはhttps://github.com/sauradip/GAPで入手できる。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Reducing the Amortization Gap in Variational Autoencoders: A Bayesian
Random Function Approach [38.45568741734893]
GPモデルの推論は、セミアモタイズ法よりもはるかに高速な1つのフィードフォワードパスによって行われる。
提案手法は,複数のベンチマークデータセットの最先端データよりも高い確率でテストデータが得られることを示す。
論文 参考訳(メタデータ) (2021-02-05T13:01:12Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。