論文の概要: Research on Image Recognition Technology Based on Multimodal Deep Learning
- arxiv url: http://arxiv.org/abs/2405.03091v1
- Date: Mon, 6 May 2024 01:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 15:04:42.819541
- Title: Research on Image Recognition Technology Based on Multimodal Deep Learning
- Title(参考訳): マルチモーダル深層学習に基づく画像認識技術に関する研究
- Authors: Jinyin Wang, Xingchen Li, Yixuan Jin, Yihao Zhong, Keke Zhang, Chang Zhou,
- Abstract要約: 本稿では,ディープニューラルネットワークを用いた人間のマルチモーダル行動識別アルゴリズムについて検討する。
MSR3Dデータセットを用いて提案アルゴリズムの性能評価を行った。
- 参考スコア(独自算出の注目度): 24.259653149898167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This project investigates the human multi-modal behavior identification algorithm utilizing deep neural networks. According to the characteristics of different modal information, different deep neural networks are used to adapt to different modal video information. Through the integration of various deep neural networks, the algorithm successfully identifies behaviors across multiple modalities. In this project, multiple cameras developed by Microsoft Kinect were used to collect corresponding bone point data based on acquiring conventional images. In this way, the motion features in the image can be extracted. Ultimately, the behavioral characteristics discerned through both approaches are synthesized to facilitate the precise identification and categorization of behaviors. The performance of the suggested algorithm was evaluated using the MSR3D data set. The findings from these experiments indicate that the accuracy in recognizing behaviors remains consistently high, suggesting that the algorithm is reliable in various scenarios. Additionally, the tests demonstrate that the algorithm substantially enhances the accuracy of detecting pedestrian behaviors in video footage.
- Abstract(参考訳): 本稿では,ディープニューラルネットワークを用いた人間のマルチモーダル行動識別アルゴリズムについて検討する。
異なるモーダル情報の特徴により、異なるモーダル映像情報に対応するために異なるディープニューラルネットワークが使用される。
様々なディープニューラルネットワークの統合を通じて、アルゴリズムは複数のモードにわたる振る舞いをうまく識別する。
このプロジェクトでは、Microsoft Kinectによって開発された複数のカメラを用いて、従来の画像の取得に基づいて対応する骨点データを収集した。
これにより、画像内の運動特徴を抽出することができる。
究極的には、両方のアプローチによって識別される行動特性は、行動の正確な識別と分類を容易にするために合成される。
MSR3Dデータセットを用いて提案アルゴリズムの性能評価を行った。
これらの実験から, 行動認識の精度は引き続き高いままであり, 様々なシナリオにおいてアルゴリズムが信頼性があることが示唆された。
さらに,ビデオ映像における歩行者行動の検出精度を大幅に向上させる実験を行った。
関連論文リスト
- Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Advancing 3D finger knuckle recognition via deep feature learning [51.871256510747465]
接触のない3Dフィンガーナックルパターンは、識別性、距離からの視認性、利便性、利便性により、効果的な生体認証として出現している。
近年、ディープニューラルネットワークの中間機能を複数のスケールで同時に組み込むディープ・フィーチャー・コラボレーティブ・ネットワークが開発されている。
本稿では,3次元指のナックル画像を表現するために,最小次元の識別特徴ベクトルを学習する可能性を検討することにより,本手法を推し進める。
論文 参考訳(メタデータ) (2023-01-07T20:55:16Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Hybrid Optimized Deep Convolution Neural Network based Learning Model
for Object Detection [0.0]
物体の識別はコンピュータビジョンにおける最も基本的で難しい問題の1つである。
近年,ディープラーニングに基づく物体検出技術が大衆の関心を集めている。
本研究では,自律型物体検出システムを構築するために,独自のディープラーニング分類手法を用いる。
提案するフレームワークは検出精度0.9864であり、現在の技術よりも高い。
論文 参考訳(メタデータ) (2022-03-02T04:39:37Z) - Research on facial expression recognition based on Multimodal data
fusion and neural network [2.5431493111705943]
このアルゴリズムはマルチモーダルデータに基づいており、顔画像、画像の方向勾配のヒストグラム、顔のランドマークを入力とする。
実験結果から, マルチモーダルデータの相補性により, 精度, 堅牢性, 検出速度が大幅に向上したことがわかった。
論文 参考訳(メタデータ) (2021-09-26T23:45:40Z) - Generalized Iris Presentation Attack Detection Algorithm under
Cross-Database Settings [63.90855798947425]
プレゼンテーションアタックは、バイオメトリックなモダリティの大部分に大きな課題をもたらす。
本稿では,汎用的な深層学習に基づくプレゼンテーション攻撃検出ネットワークであるMVANetを提案する。
これはハイブリッドアルゴリズムの単純さと成功、あるいは複数の検出ネットワークの融合にインスパイアされている。
論文 参考訳(メタデータ) (2020-10-25T22:42:27Z) - Towards Improved Human Action Recognition Using Convolutional Neural
Networks and Multimodal Fusion of Depth and Inertial Sensor Data [1.52292571922932]
本稿では,深度と慣性センサデータの融合によるヒューマンアクション認識(HAR)の精度向上を試みる。
我々は、深度データを逐次フロントビューイメージ(SFI)に変換し、これらの画像上でトレーニング済みのAlexNetを微調整する。
慣性データを信号画像(SI)に変換し、これらの画像上で別の畳み込みニューラルネットワーク(CNN)を訓練する。
論文 参考訳(メタデータ) (2020-08-22T03:41:34Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - 3DFCNN: Real-Time Action Recognition using 3D Deep Neural Networks with
Raw Depth Information [1.3854111346209868]
本稿では,RGB-Dカメラによる生深度画像系列からのリアルタイム人行動認識手法について述べる。
この提案は、3DFCNNという名前の3D完全畳み込みニューラルネットワークをベースとしている。
論文 参考訳(メタデータ) (2020-06-13T23:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。