論文の概要: Deep Learning-based Spatio Temporal Facial Feature Visual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2305.00552v1
- Date: Sun, 30 Apr 2023 18:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:48:40.945080
- Title: Deep Learning-based Spatio Temporal Facial Feature Visual Speech
Recognition
- Title(参考訳): 深層学習に基づく時空間特徴の視覚音声認識
- Authors: Pangoth Santhosh Kumar, Garika Akshay
- Abstract要約: パスワードをしゃべりながら、顔認識と個人特有の時間的顔の特徴的動作を併用する代替認証方式を提案する。
提案されたモデルは、業界標準のMIRACL-VC1データセットでテストしたときに96.1%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In low-resource computing contexts, such as smartphones and other tiny
devices, Both deep learning and machine learning are being used in a lot of
identification systems. as authentication techniques. The transparent,
contactless, and non-invasive nature of these face recognition technologies
driven by AI has led to their meteoric rise in popularity in recent years.
While they are mostly successful, there are still methods to get inside without
permission by utilising things like pictures, masks, glasses, etc. In this
research, we present an alternate authentication process that makes use of both
facial recognition and the individual's distinctive temporal facial feature
motions while they speak a password. Because the suggested methodology allows
for a password to be specified in any language, it is not limited by language.
The suggested model attained an accuracy of 96.1% when tested on the
industry-standard MIRACL-VC1 dataset, demonstrating its efficacy as a reliable
and powerful solution. In addition to being data-efficient, the suggested
technique shows promising outcomes with as little as 10 positive video examples
for training the model. The effectiveness of the network's training is further
proved via comparisons with other combined facial recognition and lip reading
models.
- Abstract(参考訳): スマートフォンや他の小さなデバイスのような低リソースのコンピューティング環境では、ディープラーニングと機械学習の両方が多くの識別システムで使われている。
認証技術として
AIによって駆動されるこれらの顔認識技術の透明で無接触で非侵襲的な性質は、近年その人気を高めている。
主に成功しているが、写真やマスク、メガネなどを利用することで、許可なく中に入る方法もある。
そこで本研究では, 顔認証と, 個人がパスワードを話しながら, 顔の特徴を識別し, 顔認証を行うための代替認証プロセスを提案する。
提案手法では、任意の言語でパスワードを指定できるため、言語によって制限されることはない。
提案モデルは、業界標準のmiracl-vc1データセットでテストした場合、96.1%の精度を達成し、信頼性と強力なソリューションとしての有効性を示した。
提案手法は,データ効率に加えて,モデルトレーニング用ビデオ例を10例も少なく,有望な結果を示す。
ネットワークのトレーニングの有効性は、他の顔認識モデルと唇読解モデルとの比較によってさらに証明される。
関連論文リスト
- Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。
本稿では,新たな視点から生成した画像検出問題にアプローチする。
実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文 参考訳(メタデータ) (2023-11-02T03:09:37Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - How to Boost Face Recognition with StyleGAN? [13.067766076889995]
最先端の顔認識システムは大量のラベル付きトレーニングデータを必要とする。
業界における自己監督的革命は、関連する技術が顔認識に適応する研究を動機付けている。
StyleGANのための微調整pSpエンコーダに基づく簡単なアプローチにより、最先端の顔認識を改善することができることを示す。
論文 参考訳(メタデータ) (2022-10-18T18:41:56Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - AuthNet: A Deep Learning based Authentication Mechanism using Temporal
Facial Feature Movements [0.0]
パスワードを発話しながら、顔認識と、その顔のユニークな動きの両方を利用する認証機構を提案する。
提案したモデルは,任意の言語でパスワードを設定することができるため,言語障壁によって阻害されない。
論文 参考訳(メタデータ) (2020-12-04T10:46:12Z) - Real Time Face Recognition Using Convoluted Neural Networks [0.0]
畳み込みニューラルネットワークは顔認識に最適であることが証明されている。
データセットの作成は、認識される人の顔映像を何百もの人の画像に変換することで行われる。
論文 参考訳(メタデータ) (2020-10-09T12:04:49Z) - An adversarial learning framework for preserving users' anonymity in
face-based emotion recognition [6.9581841997309475]
本稿では,反復的手順で学習した畳み込みニューラルネットワーク(CNN)アーキテクチャに依存する逆学習フレームワークを提案する。
その結果、提案手法は、感情認識の精度を保ち、顔認証の劣化を抑えるための畳み込み変換を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-16T22:45:52Z) - Investigating the Impact of Inclusion in Face Recognition Training Data
on Individual Face Identification [93.5538147928669]
最新のオープンソースの顔認識システムであるArcFaceを、100万枚以上の散らばった画像を用いた大規模な顔識別実験で監査する。
モデルのトレーニングデータには79.71%、存在しない人には75.73%のランク1顔認証精度がある。
論文 参考訳(メタデータ) (2020-01-09T15:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。