論文の概要: Human action recognition with a large-scale brain-inspired photonic
computer
- arxiv url: http://arxiv.org/abs/2004.02545v1
- Date: Mon, 6 Apr 2020 10:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:01:53.875404
- Title: Human action recognition with a large-scale brain-inspired photonic
computer
- Title(参考訳): 大規模脳誘発フォトニックコンピュータによる人間の行動認識
- Authors: Piotr Antonik, Nicolas Marsal, Daniel Brunner, Damien Rontani
- Abstract要約: ビデオストリームにおける人間の行動の認識は、コンピュータビジョンにおいて難しい課題である。
ディープラーニングは近年顕著な成果を上げているが、実際に使うのが難しくなっている。
本稿では,映像に基づく人間の動作を最先端の精度で認識できる,スケーラブルなフォトニックニューロインスパイアアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.774229787612056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recognition of human actions in video streams is a challenging task in
computer vision, with cardinal applications in e.g. brain-computer interface
and surveillance. Deep learning has shown remarkable results recently, but can
be found hard to use in practice, as its training requires large datasets and
special purpose, energy-consuming hardware. In this work, we propose a scalable
photonic neuro-inspired architecture based on the reservoir computing paradigm,
capable of recognising video-based human actions with state-of-the-art
accuracy. Our experimental optical setup comprises off-the-shelf components,
and implements a large parallel recurrent neural network that is easy to train
and can be scaled up to hundreds of thousands of nodes. This work paves the way
towards simply reconfigurable and energy-efficient photonic information
processing systems for real-time video processing.
- Abstract(参考訳): ビデオストリームにおける人間の行動の認識はコンピュータビジョンにおいて難しい課題であり、脳とコンピュータのインターフェースや監視などの基本的な応用がある。
ディープラーニングは最近、顕著な結果を示しているが、トレーニングには大規模なデータセットと特別な目的のエネルギー消費ハードウェアが必要であるため、実際に使用するのが難しい。
そこで本研究では,リザーバコンピューティングパラダイムに基づくスケーラブルなフォトニックニューロインスパイアドアーキテクチャを提案する。
我々の実験的な光学装置は、既製の部品で構成されており、訓練が容易で数十万のノードにスケールできる大規模な並列リカレントニューラルネットワークを実装しています。
この研究は、リアルタイムビデオ処理のための再構成可能でエネルギー効率の良いフォトニック情報処理システムへの道を開いた。
関連論文リスト
- Optical training of large-scale Transformers and deep neural networks with direct feedback alignment [48.90869997343841]
我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。
光処理ユニットは、このアルゴリズムの中央動作である大規模ランダム行列乗算を最大1500テラOpsで行う。
我々は、ハイブリッド光アプローチの計算スケーリングについて検討し、超深度・広帯域ニューラルネットワークの潜在的な利点を実証する。
論文 参考訳(メタデータ) (2024-09-01T12:48:47Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - EasyVolcap: Accelerating Neural Volumetric Video Research [69.59671164891725]
ボリュームビデオは、芸術的パフォーマンス、スポーツイベント、リモート会話などの動的イベントをデジタル的に記録する技術である。
EasyVolcapはPythonとPytorchのライブラリで、マルチビューデータ処理、4Dシーン再構成、効率的なダイナミックボリュームビデオレンダリングのプロセスを統一する。
論文 参考訳(メタデータ) (2023-12-11T17:59:46Z) - Deep Photonic Reservoir Computer for Speech Recognition [49.1574468325115]
音声認識は人工知能の分野で重要な課題であり、目覚ましい進歩を目撃してきた。
深い貯水池コンピューティングはエネルギー効率が高いが、よりリソース集約的な機械学習アルゴリズムと比較して、パフォーマンスに制限がある。
フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。
論文 参考訳(メタデータ) (2023-12-11T17:43:58Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - Design of Convolutional Extreme Learning Machines for Vision-Based
Navigation Around Small Bodies [0.0]
畳み込みニューラルネットワークのようなディープラーニングアーキテクチャは、画像処理タスクにおけるコンピュータビジョンの標準である。
しかし、その正確さは、しばしば、長く計算的に高価なトレーニングのコストがかかる。
畳み込み極端学習マシンと呼ばれる別の手法は、トレーニング時間の劇的な減少と同等に機能する可能性を示している。
論文 参考訳(メタデータ) (2022-10-28T16:24:21Z) - Computational imaging with the human brain [1.614301262383079]
脳コンピュータインタフェース(BCI)は、人間の能力を増強するための様々な新しい可能性と経路を可能にしている。
本研究では,人間の視覚システムと適応型計算画像システムを組み合わせた隠れシーンのゴーストイメージングを実演する。
この脳とコンピュータの接続は、将来的に人間の視覚の知覚範囲を拡大する、強化された人間の計算の形式を示している。
論文 参考訳(メタデータ) (2022-10-07T08:40:18Z) - 11 TeraFLOPs per second photonic convolutional accelerator for deep
learning optical neural networks [0.0]
10 TeraFLOPS(1秒あたりの浮動小数点演算)を超える全光ベクトル畳み込み加速器を実証する。
次に、同じハードウェアを用いて、10個の出力ニューロンを持つ深部光学CNNを逐次形成し、900ピクセルの手書き数字画像と88%の精度で完全な10桁の認識を成功させる。
このアプローチはスケーラブルで、無人車やリアルタイムビデオ認識のような要求のあるアプリケーションのために、より複雑なネットワークに対してトレーニング可能である。
論文 参考訳(メタデータ) (2020-11-14T21:24:01Z) - Distilled Semantics for Comprehensive Scene Understanding from Videos [53.49501208503774]
本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,さらなる一歩を踏み出した。
これら3つの課題を,知識蒸留と自己監督に基づく新たなトレーニングプロトコルによって共同で解決する。
その結果, 単眼深度推定, 光流, モーションセグメンテーションの最先端結果が得られた。
論文 参考訳(メタデータ) (2020-03-31T08:52:13Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。