論文の概要: CA3D: Convolutional-Attentional 3D Nets for Efficient Video Activity Recognition on the Edge
- arxiv url: http://arxiv.org/abs/2505.19928v1
- Date: Mon, 26 May 2025 12:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.437459
- Title: CA3D: Convolutional-Attentional 3D Nets for Efficient Video Activity Recognition on the Edge
- Title(参考訳): CA3D:エッジ上での効率的な映像活動認識のための畳み込み型3Dネット
- Authors: Gabriele Lagani, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato,
- Abstract要約: 本稿では、畳み込み層と線形複雑度注意機構を革新的に組み合わせた、映像活動認識のためのディープラーニングソリューションを提案する。
我々のモデルは、堅牢な学習と一般化能力を維持しながら、計算コストの削減を維持している。
提案手法を確立および公開しているビデオアクティビティ認識ベンチマーク上で実験的に検証し、競合する計算コストで代替モデルよりも精度を向上する。
- 参考スコア(独自算出の注目度): 8.63009707849886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a deep learning solution for video activity recognition that leverages an innovative combination of convolutional layers with a linear-complexity attention mechanism. Moreover, we introduce a novel quantization mechanism to further improve the efficiency of our model during both training and inference. Our model maintains a reduced computational cost, while preserving robust learning and generalization capabilities. Our approach addresses the issues related to the high computing requirements of current models, with the goal of achieving competitive accuracy on consumer and edge devices, enabling smart home and smart healthcare applications where efficiency and privacy issues are of concern. We experimentally validate our model on different established and publicly available video activity recognition benchmarks, improving accuracy over alternative models at a competitive computing cost.
- Abstract(参考訳): 本稿では,畳み込み層と線形複雑度アテンション機構の革新的組み合わせを活用した,映像活動認識のためのディープラーニングソリューションを提案する。
さらに、トレーニングと推論の双方において、モデルの効率をさらに向上する新しい量子化機構を導入する。
我々のモデルは、堅牢な学習と一般化能力を維持しながら、計算コストの削減を維持している。
弊社のアプローチは、現行モデルの高コンピューティング要件に関連する問題に対処し、消費者およびエッジデバイス上での競争精度を達成することを目的として、効率性とプライバシの問題が懸念されるスマートホームおよびスマートヘルスケアアプリケーションを実現する。
提案手法を確立および公開しているビデオアクティビティ認識ベンチマーク上で実験的に検証し、競合する計算コストで代替モデルよりも精度を向上する。
関連論文リスト
- Onboard Optimization and Learning: A Survey [10.511932152633253]
オンボード学習は、エッジAIにおける変革的なアプローチであり、リソース制約のあるデバイス上で、リアルタイムデータ処理、意思決定、適応モデルのトレーニングを可能にする。
しかし、オンボード学習は、限られた計算リソース、高い推論コスト、セキュリティ脆弱性といった課題に直面している。
本調査では,モデル効率の最適化,推論の高速化,分散デバイス間の協調学習を支援する技術について検討する。
論文 参考訳(メタデータ) (2025-05-07T07:47:14Z) - Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。
本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。
実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-04T17:55:33Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - A Retention-Centric Framework for Continual Learning with Guaranteed Model Developmental Safety [75.8161094916476]
現実世界のアプリケーションでは、学習可能なシステムは、しばしば課題や新しいタスクに対処するために反復的なモデル開発を行う。
既存の能力の新規または改善は、必然的に旧モデルの優れた能力を失う可能性がある。
本稿では,データ依存制約を伴う保持中心のフレームワークを提案し,既存の画像分類能力の獲得や改善を目的とした事前学習型CLIPモデルを継続的に開発する方法について検討する。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Compute-Efficient Active Learning [0.0]
アクティブラーニングは、ラベルなしデータセットから最も有益なサンプルを選択することでラベリングコストを削減することを目的としている。
従来のアクティブな学習プロセスは、拡張性と効率を阻害する広範な計算資源を必要とすることが多い。
本稿では,大規模データセット上での能動的学習に伴う計算負担を軽減するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T12:32:07Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Baby Physical Safety Monitoring in Smart Home Using Action Recognition
System [0.0]
本研究では,移動学習手法をConv2D LSTM層と組み合わせて,Kineeticsデータセット上の事前学習したI3Dモデルから特徴を抽出するフレームワークを提案する。
スマートベビールームにおける赤ちゃんの活動を認識し,予測するために,LSTM畳み込みとI3D(ConvLSTM-I3D)を用いたベンチマークデータセットと自動モデルを開発した。
論文 参考訳(メタデータ) (2022-10-22T19:00:14Z) - Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。
我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文 参考訳(メタデータ) (2021-08-23T20:23:57Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。