論文の概要: Methodology to Deploy CNN-Based Computer Vision Models on Immersive Wearable Devices
- arxiv url: http://arxiv.org/abs/2407.00233v1
- Date: Fri, 28 Jun 2024 21:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 05:50:47.950922
- Title: Methodology to Deploy CNN-Based Computer Vision Models on Immersive Wearable Devices
- Title(参考訳): 没入型ウェアラブルデバイスにCNNに基づくコンピュータビジョンモデルを展開する手法
- Authors: Kaveh Malek, Fernando Moreu,
- Abstract要約: 本稿では,コンピュータ上でCNNモデルをトレーニングし,最適化した重量行列をヘッドセットに転送することで,ARヘッドセットにCNNモデルをデプロイする方法を提案する。
我々は、PyTorchを用いてMNISTデータセット上でLeNet-5 CNNモデルをトレーニングし、HoloLens ARヘッドセットにデプロイすることで、この手法を実証する。
その結果,コンピュータの性能と同様,約98%の精度を維持していることがわかった。
- 参考スコア(独自算出の注目度): 49.89480853499917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional Neural Network (CNN) models often lack the ability to incorporate human input, which can be addressed by Augmented Reality (AR) headsets. However, current AR headsets face limitations in processing power, which has prevented researchers from performing real-time, complex image recognition tasks using CNNs in AR headsets. This paper presents a method to deploy CNN models on AR headsets by training them on computers and transferring the optimized weight matrices to the headset. The approach transforms the image data and CNN layers into a one-dimensional format suitable for the AR platform. We demonstrate this method by training the LeNet-5 CNN model on the MNIST dataset using PyTorch and deploying it on a HoloLens AR headset. The results show that the model maintains an accuracy of approximately 98%, similar to its performance on a computer. This integration of CNN and AR enables real-time image processing on AR headsets, allowing for the incorporation of human input into AI models.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)モデルは、拡張現実(AR)ヘッドセットで対処できる人間の入力を組み込む能力に欠けることが多い。
しかし、現在のARヘッドセットは処理能力の限界に直面しており、研究者はARヘッドセットのCNNを使用してリアルタイムで複雑な画像認識タスクを実行できなくなった。
本稿では,コンピュータ上でCNNモデルをトレーニングし,最適化した重量行列をヘッドセットに転送することで,ARヘッドセットにCNNモデルをデプロイする方法を提案する。
このアプローチは、画像データとCNN層をARプラットフォームに適した1次元フォーマットに変換する。
我々は、PyTorchを用いてMNISTデータセット上でLeNet-5 CNNモデルをトレーニングし、HoloLens ARヘッドセットにデプロイすることで、この手法を実証する。
その結果,コンピュータの性能と同様,約98%の精度を維持していることがわかった。
CNNとARの統合により、ARヘッドセットのリアルタイム画像処理が可能になり、AIモデルに人間の入力を組み込むことが可能になる。
関連論文リスト
- PoseINN: Realtime Visual-based Pose Regression and Localization with Invertible Neural Networks [3.031375888004876]
カメラからエゴ位置を推定することは、モバイルロボティクスから拡張現実に至るまで、ロボット工学における重要な問題である。
本稿では,画像の潜在空間とシーンのポーズの間のマッピングを見つけるために,非可逆ニューラルネットワーク(INN)を用いてこの問題を解決することを提案する。
我々のモデルは、訓練が速く、低解像度合成データのオフラインレンダリングしか必要とせず、SOTAと同じような性能を実現している。
論文 参考訳(メタデータ) (2024-04-20T06:25:32Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - Self-Denoising Neural Networks for Few Shot Learning [66.38505903102373]
既存のニューラルアーキテクチャの複数の段階でノイズを追加すると同時に、この付加ノイズに対して堅牢であるように学習する新しいトレーニングスキームを提案する。
このアーキテクチャは、SDNN(Self-Denoising Neural Network)と呼ばれ、現代の畳み込みニューラルネットワークに容易に適用できます。
論文 参考訳(メタデータ) (2021-10-26T03:28:36Z) - Finding Strong Gravitational Lenses Through Self-Attention [0.0]
本稿では,強い重力レンズを見つけるための自己アテンションの原理に基づく新しい自動アーキテクチャを提案する。
ボローニャレンズチャレンジから重力レンズを識別するために,21個の自己注意型エンコーダモデルと4つの畳み込みニューラルネットワークを構築した。
論文 参考訳(メタデータ) (2021-10-18T11:40:48Z) - Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data
Augmentation and Deep Ensemble Learning [2.1446056201053185]
我々は最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案し、データ拡張と深層アンサンブル学習の利点も評価した。
年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点の脳解剖学的MRIデータセットを用いて実験を行った。
その結果,VBM画像の予測精度は擬似RAWデータよりも有意に向上した。
DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータレシエーションのパフォーマンスにおいて優れた妥協を提供する。
論文 参考訳(メタデータ) (2021-06-02T13:00:35Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。