論文の概要: Hand Gestures Recognition in Videos Taken with Lensless Camera
- arxiv url: http://arxiv.org/abs/2210.08233v1
- Date: Sat, 15 Oct 2022 08:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:59:07.783108
- Title: Hand Gestures Recognition in Videos Taken with Lensless Camera
- Title(参考訳): レンズレスカメラで撮影した映像のジェスチャー認識
- Authors: Yinger Zhang, Zhouyi Wu, Peiying Lin, Yang Pan, Yuting Wu, Liufang
Zhang and Jiangtao Huangfu
- Abstract要約: この研究はRaw3dNetというディープラーニングモデルを提案し、レンズレスカメラで撮影した生のビデオから直接手の動きを認識する。
計算資源の保存に加えて、復元不要な手法はプライバシ保護を提供する。
- 参考スコア(独自算出の注目度): 4.49422973940462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A lensless camera is an imaging system that uses a mask in place of a lens,
making it thinner, lighter, and less expensive than a lensed camera. However,
additional complex computation and time are required for image reconstruction.
This work proposes a deep learning model named Raw3dNet that recognizes hand
gestures directly on raw videos captured by a lensless camera without the need
for image restoration. In addition to conserving computational resources, the
reconstruction-free method provides privacy protection. Raw3dNet is a novel
end-to-end deep neural network model for the recognition of hand gestures in
lensless imaging systems. It is created specifically for raw video captured by
a lensless camera and has the ability to properly extract and combine temporal
and spatial features. The network is composed of two stages: 1. spatial feature
extractor (SFE), which enhances the spatial features of each frame prior to
temporal convolution; 2. 3D-ResNet, which implements spatial and temporal
convolution of video streams. The proposed model achieves 98.59% accuracy on
the Cambridge Hand Gesture dataset in the lensless optical experiment, which is
comparable to the lensed-camera result. Additionally, the feasibility of
physical object recognition is assessed. Furtherly, we show that the
recognition can be achieved with respectable accuracy using only a tiny portion
of the original raw data, indicating the potential for reducing data traffic in
cloud computing scenarios.
- Abstract(参考訳): レンズレスカメラ(lensless camera)は、レンズの代わりにマスクを使用する撮像システムで、レンズカメラよりも薄く、軽く、安価である。
しかし、画像再構成には複雑な計算と時間が必要となる。
この研究はRaw3dNetというディープラーニングモデルを提案し、画像復元を必要とせず、レンズレスカメラで撮影した生のビデオから直接手の動きを認識する。
計算資源の保存に加えて、レコンストラクションフリー法はプライバシ保護を提供する。
raw3dnetは、レンズレスイメージングシステムにおける手のジェスチャー認識のための、新しいエンドツーエンドのディープニューラルネットワークモデルである。
レンズレスカメラで捉えた生のビデオに特化して作られ、時間的特徴と空間的特徴を適切に抽出し組み合わせることができる。
ネットワークは2つの段階から成り立っている。
1. 時間的畳み込みに先立って各フレームの空間的特徴を高める空間的特徴抽出器(SFE)
2. 映像ストリームの空間的・時間的畳み込みを実現する3D-ResNet
提案モデルは、レンズレス光学実験におけるケンブリッジハンドジェスチャデータセットで98.59%の精度を達成している。
さらに、物理的物体認識の可能性を評価する。
さらに,本研究では,クラウドコンピューティングのシナリオにおけるデータトラフィック削減の可能性を示唆し,元の生データのごく一部だけを用いて,精度よく認識できることを示す。
関連論文リスト
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z) - Transientangelo: Few-Viewpoint Surface Reconstruction Using Single-Photon Lidar [8.464054039931245]
ライダーは、ターゲットに光のパルスを放出し、反射光の光速遅延を記録することで、3Dシーンの幾何学を捉えている。
従来のライダーシステムは、後方散乱光の生で捕獲された波形を出力しない。
我々は,光子ノイズに対するロバスト性を向上させる新しい正則化戦略を開発し,画素あたり10光子程度で正確な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-08-22T08:12:09Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SpikeNVS: Enhancing Novel View Synthesis from Blurry Images via Spike Camera [78.20482568602993]
従来のRGBカメラは、動きがぼやけやすい。
イベントやスパイクカメラのようなニューロモルフィックカメラは、本質的により包括的な時間情報をキャプチャする。
我々の設計は、NeRFと3DGSをまたいだ新しいビュー合成を強化することができる。
論文 参考訳(メタデータ) (2024-04-10T03:31:32Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Multi-task Learning for Camera Calibration [3.274290296343038]
一対の画像から内在性(主点オフセットと焦点長)と外因性(ベースライン,ピッチ,翻訳)を予測できるユニークな手法を提案する。
カメラモデルニューラルネットワークを用いて3Dポイントを再構成し、再構成の損失を利用してカメラ仕様を得ることにより、この革新的なカメラ投影損失(CPL)法により、所望のパラメータを推定できる。
論文 参考訳(メタデータ) (2022-11-22T17:39:31Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Camera Calibration through Camera Projection Loss [4.36572039512405]
画像対を用いた固有(焦点長と主点オフセット)パラメータの予測手法を提案する。
従来の手法とは違って,マルチタスク学習フレームワークにおいて,カメラモデル方程式をニューラルネットワークとして組み込んだ新しい表現を提案する。
提案手法は,10パラメータ中7パラメータに対して,ディープラーニングと従来手法の両方に対して,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-10-07T14:03:10Z) - BARF: Bundle-Adjusting Neural Radiance Fields [104.97810696435766]
不完全なカメラポーズからNeRFを訓練するためのバンドル調整ニューラルラジアンスフィールド(BARF)を提案します。
BARFは、ニューラルネットワークシーンの表現を効果的に最適化し、大きなカメラのポーズミスを同時に解決する。
これにより、未知のカメラポーズからの映像シーケンスのビュー合成とローカライズが可能になり、視覚ローカライズシステムのための新しい道を開くことができる。
論文 参考訳(メタデータ) (2021-04-13T17:59:51Z) - Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。
Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。
本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文 参考訳(メタデータ) (2020-08-15T02:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。