論文の概要: Improving Hand Recognition in Uncontrolled and Uncooperative
Environments using Multiple Spatial Transformers and Loss Functions
- arxiv url: http://arxiv.org/abs/2311.05383v1
- Date: Thu, 9 Nov 2023 14:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:02:49.985805
- Title: Improving Hand Recognition in Uncontrolled and Uncooperative
Environments using Multiple Spatial Transformers and Loss Functions
- Title(参考訳): 複数空間変換器と損失関数を用いた非制御・非協調環境における手話認識の改善
- Authors: Wojciech Michal Matkowski, Xiaojie Li and Adams Wai Kin Kong
- Abstract要約: 既存の手動画像認識手法の多くは, ユーザの協力を得て, 制御された環境下で収集した手動画像に対して良好に動作する。
マルチ空間変換器ネットワーク(MSTN)と多重損失関数を組み合わせたアルゴリズムを提案する。
実験結果から,提案アルゴリズムは,これらの非制御・非協調環境における既存手法よりも有意に優れた性能を示した。
- 参考スコア(独自算出の注目度): 13.47664951012019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalence of smartphone and consumer camera has led to more evidence in
the form of digital images, which are mostly taken in uncontrolled and
uncooperative environments. In these images, criminals likely hide or cover
their faces while their hands are observable in some cases, creating a
challenging use case for forensic investigation. Many existing hand-based
recognition methods perform well for hand images collected in controlled
environments with user cooperation. However, their performance deteriorates
significantly in uncontrolled and uncooperative environments. A recent work has
exposed the potential of hand recognition in these environments. However, only
the palmar regions were considered, and the recognition performance is still
far from satisfactory. To improve the recognition accuracy, an algorithm
integrating a multi-spatial transformer network (MSTN) and multiple loss
functions is proposed to fully utilize information in full hand images. MSTN is
firstly employed to localize the palms and fingers and estimate the alignment
parameters. Then, the aligned images are further fed into pretrained
convolutional neural networks, where features are extracted. Finally, a
training scheme with multiple loss functions is used to train the network
end-to-end. To demonstrate the effectiveness of the proposed algorithm, the
trained model is evaluated on NTU-PI-v1 database and six benchmark databases
from different domains. Experimental results show that the proposed algorithm
performs significantly better than the existing methods in these uncontrolled
and uncooperative environments and has good generalization capabilities to
samples from different domains.
- Abstract(参考訳): スマートフォンや消費者向けカメラの普及により、デジタル画像の形でより多くの証拠が得られ、ほとんどが非制御環境や非協力環境で撮影されている。
これらの画像では、犯罪者は手元に隠したり隠したりする可能性があり、法医学的な調査の難しいユースケースを生み出している。
既存の手動認識手法の多くは,ユーザ協力による手動画像の収集に有効である。
しかし,非制御環境と非協調環境では性能が著しく低下する。
最近の研究は、これらの環境での認識の可能性を明らかにしている。
しかし、パーマー領域のみが考慮され、認識性能はまだ満足のいくものではなかった。
認識精度を向上させるために,マルチ空間トランスフォーマネットワーク(mstn)と複数の損失関数を統合したアルゴリズムを提案する。
MSTNは、まず手のひらと指を局在させ、アライメントパラメータを推定するために使用される。
その後、アライメントされた画像はさらに事前訓練された畳み込みニューラルネットワークに供給され、特徴が抽出される。
最後に、ネットワークエンドツーエンドのトレーニングには、複数の損失関数を持つトレーニングスキームが使用される。
提案アルゴリズムの有効性を示すため,NTU-PI-v1データベースと異なる領域の6つのベンチマークデータベースを用いて,学習モデルの評価を行った。
実験結果から,提案アルゴリズムはこれらの非制御・非協調環境における既存手法よりも優れた性能を示し,異なる領域のサンプルに対して優れた一般化能力を有することがわかった。
関連論文リスト
- Research on Image Recognition Technology Based on Multimodal Deep Learning [24.259653149898167]
本稿では,ディープニューラルネットワークを用いた人間のマルチモーダル行動識別アルゴリズムについて検討する。
MSR3Dデータセットを用いて提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-06T01:05:21Z) - Multi-channel Time Series Decomposition Network For Generalizable Sensor-Based Activity Recognition [2.024925013349319]
本稿では,MTSDNet(Multi- Channel Time Series Decomposition Network)を提案する。
トレーニング可能なパラメータ化時間分解により、元の信号を複数の成分と三角関数の組み合わせに分解する。
提案手法の精度と安定性を他の競合戦略と比較して予測する利点を示す。
論文 参考訳(メタデータ) (2024-03-28T12:54:06Z) - LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - On the Effectiveness of Image Manipulation Detection in the Age of
Social Media [9.227950734832447]
操作検出アルゴリズムは、画像内の他の非干渉領域と十分に異なる'操作された領域に依存していることが多い。
本稿では,ディープラーニングと学習自由な手法の詳細な分析を行い,その性能をベンチマークデータセット上で評価する。
本稿では,操作領域に存在する異常をアクセント化する,ディープラーニングに基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T04:05:54Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。