論文の概要: CAKE: Real-time Action Detection via Motion Distillation and Background-aware Contrastive Learning
- arxiv url: http://arxiv.org/abs/2603.23988v1
- Date: Wed, 25 Mar 2026 06:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.164474
- Title: CAKE: Real-time Action Detection via Motion Distillation and Background-aware Contrastive Learning
- Title(参考訳): CAKE: 運動蒸留と背景認識型コントラスト学習によるリアルタイム行動検出
- Authors: Hieu Hoang, Dung Trung Tran, Hong Nguyen, Nam-Phong Nguyen,
- Abstract要約: オンライン行動検出(OAD)システムは、高い計算コストと背景運動に対する時間的ダイナミクスのモデリングの不十分な2つの主な課題に直面している。
動作知識をRGBモデルに転送するためのOADフローに基づく蒸留フレームワークであるCAKEを提案する。
我々のモデルは、単一のCPU上で72FPS以上で動作し、リソース制約されたシステムに非常に適している。
- 参考スコア(独自算出の注目度): 3.1978938942105644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online Action Detection (OAD) systems face two primary challenges: high computational cost and insufficient modeling of discriminative temporal dynamics against background motion. Adding optical flow could provides strong motion cues but it incurs significant computational overhead. We propose CAKE, a OAD Flow-based distillation framework to transfer motion knowledge into RGB models. We propose Dynamic Motion Adapter (DMA) to suppress static background noise and emphasize pixel changes, effectively approximating optical flow without explicit computation. The framework also integrates a Floating Contrastive Learning strategy to distinguish informative motion dynamics from temporal background. Various experiments conducted on the TVSeries, THUMOS'14, Kinetics-400 datasets show effectiveness of our model. CAKE achieves a standout mAP compared with SOTA while using the same backbone. Our model operates at over 72 FPS on a single CPU, making it highly suitable for resource-constrained systems.
- Abstract(参考訳): オンライン行動検出(OAD)システムは、高い計算コストと背景運動に対する差別的時間力学のモデリングの不十分な2つの主要な課題に直面している。
光の流れが加わったことで、強い動きの手がかりが得られるが、計算オーバーヘッドは大幅に増大する。
動作知識をRGBモデルに転送するためのOADフローに基づく蒸留フレームワークであるCAKEを提案する。
静的背景雑音の抑制と画素変化の強調を目的とした動的運動適応器(DMA)を提案する。
このフレームワークはまた、時間的背景と情報的動きのダイナミクスを区別するために、フローティングコントラスト学習戦略を統合している。
The TVSeries, THUMOS'14, Kinetics-400 データセットを用いた各種実験により, 本モデルの有効性が示された。
CAKEは、同じバックボーンを使用しながらSOTAと比較してスタンドアウトmAPを達成する。
我々のモデルは、単一のCPU上で72FPS以上で動作し、リソース制約されたシステムに非常に適している。
関連論文リスト
- Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - DyMoDreamer: World Modeling with Dynamic Modulation [52.27044216359359]
深層強化学習(DRL)における重要なボトルネックはサンプル非効率である。
動的変調機構を組み込んだ新しいアルゴリズムDyMoDreamerを導入し,動的特徴抽出の改善と時間情報の充実を図る。
実験によると、DyMoDreamer は Atari 100$k ベンチマークに新しい最先端のスコアをセットし、平均156.6$% の人間正規化スコアを設定できる。
論文 参考訳(メタデータ) (2025-09-29T13:54:42Z) - Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。
RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。
本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文 参考訳(メタデータ) (2025-05-26T13:06:01Z) - Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation [34.529280562470746]
コントラスト最大化フレームワークと非直線運動を組み合わせた新たな自己監督的損失を画素レベルの軌跡の形で導入する。
連続時間運動の高密度推定では, 合成学習モデルのゼロショット性能を29%向上する。
論文 参考訳(メタデータ) (2024-07-15T15:18:28Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - EM-driven unsupervised learning for efficient motion segmentation [3.5232234532568376]
本稿では,光学的流れからの動作分割のためのCNNに基づく完全教師なし手法を提案する。
本研究では,移動分割ニューラルネットワークの損失関数とトレーニング手順を活用するために,期待最大化(EM)フレームワークを利用する。
提案手法は, 教師なし手法よりも優れ, 効率的である。
論文 参考訳(メタデータ) (2022-01-06T14:35:45Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。