論文の概要: Modelling Lips-State Detection Using CNN for Non-Verbal Communications
- arxiv url: http://arxiv.org/abs/2112.04752v2
- Date: Sat, 11 Dec 2021 15:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 11:49:57.640162
- Title: Modelling Lips-State Detection Using CNN for Non-Verbal Communications
- Title(参考訳): 非言語通信におけるCNNを用いた唇状態検出のモデル化
- Authors: Abtahi Ishmam, Mahmudul Hasan, Md. Saif Hassan Onim, Koushik Roy, Md.
Akiful Haque Akif and Hossain Nyeem
- Abstract要約: 本稿では,唇状態検出のための2つの新しいコナールニューラルネットワーク(CNN)モデルについて報告する。
我々は6つのキーランドマークのセットでリップ状態モデルを単純化し、その距離をリップ状態の分類に利用する。
モデルの有効性を明らかにするために, フレームレート, 唇の動き, 顔角について検討した。
- 参考スコア(独自算出の注目度): 2.0715161308249916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based deep learning models can be promising for
speech-and-hearing-impaired and secret communications. While such non-verbal
communications are primarily investigated with hand-gestures and facial
expressions, no research endeavour is tracked so far for the lips state (i.e.,
open/close)-based interpretation/translation system. In support of this
development, this paper reports two new Convolutional Neural Network (CNN)
models for lips state detection. Building upon two prominent lips landmark
detectors, DLIB and MediaPipe, we simplify lips-state model with a set of six
key landmarks, and use their distances for the lips state classification.
Thereby, both the models are developed to count the opening and closing of lips
and thus, they can classify a symbol with the total count. Varying frame-rates,
lips-movements and face-angles are investigated to determine the effectiveness
of the models. Our early experimental results demonstrate that the model with
DLIB is relatively slower in terms of an average of 6 frames per second (FPS)
and higher average detection accuracy of 95.25%. In contrast, the model with
MediaPipe offers faster landmark detection capability with an average FPS of 20
and detection accuracy of 94.4%. Both models thus could effectively interpret
the lips state for non-verbal semantics into a natural language.
- Abstract(参考訳): ビジョンベースのディープラーニングモデルは、音声と聴覚に欠ける秘密のコミュニケーションに期待できる。
このような非言語コミュニケーションは主に手話や表情で研究されているが、リップス状態(つまりオープン・クローズ)ベースの解釈/翻訳システムについては、これまでの研究成果は追跡されていない。
本稿では,唇状態検出のための2つの新しい畳み込みニューラルネットワーク(CNN)モデルについて報告する。
dlibとmediapipeの2つの顕著なリップスランドマーク検出器の上に構築し、6つの主要なランドマークからなるリップスステートモデルを単純化し、その距離をリップス状態分類に使用する。
これにより、唇の開閉をカウントするために両方のモデルが開発され、合計数でシンボルを分類することができる。
モデルの有効性を明らかにするために, フレームレート, 唇運動, 顔角の変化について検討した。
実験結果から, DLIBを用いたモデルでは, 平均1秒あたり6フレーム (FPS) が比較的遅く, 平均95.25%の精度で検出できることがわかった。
対照的にMediaPipeのモデルは、20のFPSと94.4%の精度でより高速なランドマーク検出機能を提供する。
したがって、どちらのモデルも、非言語意味論の唇の状態を自然言語に効果的に解釈することができる。
関連論文リスト
- Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Exploring Deep Learning for Joint Audio-Visual Lip Biometrics [54.32039064193566]
音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
大規模なAVデータベースの欠如は、ディープラーニングベースのオーディオビジュアルリップバイオメトリックの探索を妨げる。
我々は、畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール、時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール、マルチモーダル融合モジュールで実現されたDeepLip AVリップバイオメトリックスシステムを確立する。
論文 参考訳(メタデータ) (2021-04-17T10:51:55Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Effects of Number of Filters of Convolutional Layers on Speech
Recognition Model Accuracy [6.2698513174194215]
本稿では,ASRモデルに対するCNN+RNNのモデル予測精度に及ぼす畳み込み層フィルタ数の影響について検討する。
実験結果から,フィルタのCNN数が一定の閾値を超えた場合のみ,CNN+RNN音声認識モデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-02-03T23:04:38Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。