論文の概要: High Speed Human Action Recognition using a Photonic Reservoir Computer
- arxiv url: http://arxiv.org/abs/2305.15283v2
- Date: Mon, 19 Jun 2023 08:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 01:50:26.449945
- Title: High Speed Human Action Recognition using a Photonic Reservoir Computer
- Title(参考訳): フォトニック貯留層コンピュータを用いた高速人行動認識
- Authors: Enrico Picco, Piotr Antonik, Serge Massar
- Abstract要約: 我々は,「関心の時間」に基づく貯水池コンピュータの新しい訓練方法を提案する。
我々は,複数のビデオストリームをリアルタイムに処理できる点において,高い精度と速度でタスクを解く。
- 参考スコア(独自算出の注目度): 1.7403133838762443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recognition of human actions in videos is one of the most active research
fields in computer vision. The canonical approach consists in a more or less
complex preprocessing stages of the raw video data, followed by a relatively
simple classification algorithm. Here we address recognition of human actions
using the reservoir computing algorithm, which allows us to focus on the
classifier stage. We introduce a new training method for the reservoir
computer, based on "Timesteps Of Interest", which combines in a simple way
short and long time scales. We study the performance of this algorithm using
both numerical simulations and a photonic implementation based on a single
non-linear node and a delay line on the well known KTH dataset. We solve the
task with high accuracy and speed, to the point of allowing for processing
multiple video streams in real time. The present work is thus an important step
towards developing efficient dedicated hardware for video processing.
- Abstract(参考訳): ビデオにおける人間の行動の認識はコンピュータビジョンにおける最も活発な研究分野の一つである。
標準的アプローチは生のビデオデータの多かれ少なかれ複雑な前処理段階で構成され、その後比較的単純な分類アルゴリズムが続く。
ここでは,貯水池計算アルゴリズムを用いて人間の行動の認識に対処し,分類器の段階に焦点をあてる。
そこで本研究では,簡易な短時間・長時間スケールで組み合わせた「興味の時間ステップ」に基づく新しい貯留層コンピュータのトレーニング手法を提案する。
我々は,このアルゴリズムの性能を,KTHデータセット上の1つの非線形ノードと遅延線に基づく数値シミュレーションとフォトニック実装の両方を用いて検討した。
我々は,複数の映像ストリームをリアルタイムで処理できる点まで,高い精度と速度で課題を解決した。
本研究は、ビデオ処理のための効率的な専用ハードウェアを開発するための重要なステップである。
関連論文リスト
- Deep Photonic Reservoir Computer for Speech Recognition [49.1574468325115]
音声認識は人工知能の分野で重要な課題であり、目覚ましい進歩を目撃してきた。
深い貯水池コンピューティングはエネルギー効率が高いが、よりリソース集約的な機械学習アルゴリズムと比較して、パフォーマンスに制限がある。
フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。
論文 参考訳(メタデータ) (2023-12-11T17:43:58Z) - Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - VideoPose: Estimating 6D object pose from videos [14.210010379733017]
我々は、畳み込みニューラルネットワークを用いて、ビデオから直接オブジェクトのポーズを推定する、単純だが効果的なアルゴリズムを導入する。
提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、リカレントニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。
YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:57:45Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Fast Object Segmentation Learning with Kernel-based Methods for Robotics [21.48920421574167]
オブジェクトセグメンテーションは、把握やオブジェクト操作といったタスクを実行するロボットの視覚システムにおいて重要なコンポーネントである。
本稿では,オブジェクトセグメンテーションのための新しいアーキテクチャを提案する。これはこの問題を克服し,最先端の手法で必要とされる時間に匹敵する性能を提供する。
本手法はコンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証されている。
論文 参考訳(メタデータ) (2020-11-25T15:07:39Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。