論文の概要: E2E-LOAD: End-to-End Long-form Online Action Detection
- arxiv url: http://arxiv.org/abs/2306.07703v2
- Date: Thu, 24 Aug 2023 10:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 17:42:31.048080
- Title: E2E-LOAD: End-to-End Long-form Online Action Detection
- Title(参考訳): E2E-LOAD: エンドツーエンドのオンラインアクション検出
- Authors: Shuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, Lin Ma
- Abstract要約: オンライン行動検出(OAD)の課題に対処するため、E2E-LOADと呼ばれる最初のエンドツーエンドOADモデルを提案する。
具体的には,提案手法はすべてのフレームで共有される初期空間モデルを採用し,計算コストの低い推論のための長いシーケンスキャッシュを維持する。
- 参考スコア(独自算出の注目度): 21.487123649693114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a growing trend toward feature-based approaches for
Online Action Detection (OAD). However, these approaches have limitations due
to their fixed backbone design, which ignores the potential capability of a
trainable backbone. In this paper, we propose the first end-to-end OAD model,
termed E2E-LOAD, designed to address the major challenge of OAD, namely,
long-term understanding and efficient online reasoning. Specifically, our
proposed approach adopts an initial spatial model that is shared by all frames
and maintains a long sequence cache for inference at a low computational cost.
We also advocate an asymmetric spatial-temporal model for long-form and
short-form modeling effectively. Furthermore, we propose a novel and efficient
inference mechanism that accelerates heavy spatial-temporal exploration.
Extensive ablation studies and experiments demonstrate the effectiveness and
efficiency of our proposed method. Notably, we achieve 17.3 (+12.6) FPS for
end-to-end OAD with 72.4%~(+1.2%), 90.3%~(+0.7%), and 48.1%~(+26.0%) mAP on
THMOUS14, TVSeries, and HDD, respectively, which is 3x faster than previous
approaches. The source code will be made publicly available.
- Abstract(参考訳): 近年、オンラインアクション検出(oad)のための機能ベースアプローチへの傾向が高まっている。
しかしながら、これらのアプローチには、トレーニング可能なバックボーンの潜在的な能力を無視した固定バックボーン設計による制限がある。
本稿では,OADの長期的理解と効率的なオンライン推論という大きな課題に対処するために,E2E-LOADと呼ばれる最初のエンドツーエンドOADモデルを提案する。
具体的には,提案手法はすべてのフレームで共有される初期空間モデルを採用し,計算コストの低い推論のための長いシーケンスキャッシュを維持する。
また, 長尺および短尺のモデリングを効果的に行うための非対称空間-時空間モデルも提案する。
さらに,空間空間探索を高速化する新しい効率的な推論機構を提案する。
大規模なアブレーション研究と実験により,提案手法の有効性と有効性を示した。
特に、72.4%~(+1.2%)、90.3%~(+0.7%)、48.1%~(+26.0%)のmAPをTHMOUS14、TVSeries、HDDでそれぞれ17.3 (+12.6) FPSを達成する。
ソースコードは一般公開される予定だ。
関連論文リスト
- DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model [14.996395953240699]
DOMEは拡散に基づく世界モデルであり、過去の占有観察に基づいて将来の占有枠を予測する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
論文 参考訳(メタデータ) (2024-10-14T12:24:32Z) - Obsidian: Cooperative State-Space Exploration for Performant Inference on Secure ML Accelerators [1.688014412837638]
本稿では,MLカーネルからセキュアなMLアクセラレータへの最適マッピングを見つけるための最適化フレームワークを提案する。
クラウドでは20.5%,エッジデプロイメントでは8.4%,エネルギ改善では24%,エネルギ改善では19%となっている。
サイクル精度モデルにより、クラウドでは9.1%、エッジでは12.2%のレイテンシが減少し、エネルギー効率は13.8%と13.1%になった。
論文 参考訳(メタデータ) (2024-09-04T15:35:18Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin [32.172269679513285]
FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。
チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。
その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
論文 参考訳(メタデータ) (2023-11-18T15:28:09Z) - A Novel Long-term Iterative Mining Scheme for Video Salient Object
Detection [54.53335983750033]
短期的方法論は視覚システムの実際のメカニズムと矛盾する。
そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。
提案手法は、広く使用されている5つのベンチマークデータセットにおいて、ほぼ全てのSOTAモデルより優れている。
論文 参考訳(メタデータ) (2022-06-20T04:27:47Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - An Efficient Accelerator Design Methodology for Deformable Convolutional
Networks [16.392643034008348]
FPGA上での変形可能な畳み込みを高速化する新しい手法を提案する。
受容場を最適化することにより、受容場の最大サイズを12.6倍に圧縮することができる。
我々の加速器は最先端の加速器で最大17.25倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2020-06-09T13:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。