論文の概要: Advances and Challenges in Deep Lip Reading
- arxiv url: http://arxiv.org/abs/2110.07879v1
- Date: Fri, 15 Oct 2021 06:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 02:09:24.571363
- Title: Advances and Challenges in Deep Lip Reading
- Title(参考訳): 深唇読解の進歩と課題
- Authors: Marzieh Oghbaie, Arian Sabaghi, Kooshan Hashemifard, and Mohammad
Akbari
- Abstract要約: 本稿では,最先端のディープラーニングに基づくビジュアル音声認識研究を包括的に調査する。
我々は、データ課題、タスク固有の合併症、およびそれに対応するソリューションに焦点を当てます。
また、VSRパイプラインの主モジュールと、影響のあるデータセットについても論じる。
- 参考スコア(独自算出の注目度): 2.930266486910376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by deep learning techniques and large-scale datasets, recent years
have witnessed a paradigm shift in automatic lip reading. While the main thrust
of Visual Speech Recognition (VSR) was improving accuracy of Audio Speech
Recognition systems, other potential applications, such as biometric
identification, and the promised gains of VSR systems, have motivated extensive
efforts on developing the lip reading technology. This paper provides a
comprehensive survey of the state-of-the-art deep learning based VSR research
with a focus on data challenges, task-specific complications, and the
corresponding solutions. Advancements in these directions will expedite the
transformation of silent speech interface from theory to practice. We also
discuss the main modules of a VSR pipeline and the influential datasets.
Finally, we introduce some typical VSR application concerns and impediments to
real-world scenarios as well as future research directions.
- Abstract(参考訳): 近年、ディープラーニング技術と大規模なデータセットによって、自動唇読解のパラダイムシフトが見られた。
視覚音声認識(vsr)の主な推進力は音声音声認識システムの精度向上であったが、生体認証やvsrシステムの期待される向上といった他の潜在的な応用は、口唇読解技術の開発に多大な努力を要した。
本稿では、データ課題、タスク固有の合併症、およびそれに対応するソリューションを中心に、最先端のディープラーニングベースのVSR研究を包括的に調査する。
これらの方向の進歩は、理論から実践への無声音声インタフェースの変容を早めるだろう。
また、VSRパイプラインの主モジュールと、影響のあるデータセットについても論じる。
最後に、現実のシナリオや今後の研究の方向性に典型的なVSRアプリケーションに関する懸念と障害を導入する。
関連論文リスト
- Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey [2.716339075963185]
近年のディープラーニング(DL)の進歩は,自動音声認識(ASR)にとって重要な課題となっている。
ASRは、秘密のデータセットを含む広範なトレーニングデータセットに依存しており、かなりの計算とストレージリソースを必要としている。
ディープトランスファーラーニング(DTL)、フェデレーションラーニング(FL)、強化ラーニング(RL)といった高度なDL技術はこれらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-02T16:25:42Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Radio Frequency Fingerprinting via Deep Learning: Challenges and Opportunities [4.800138615859937]
RFF(Radio Frequency Fingerprinting)技術は、製造時に導入された固有のハードウェア不完全性に基づいて、物理層における無線デバイスを認証することを約束する。
機械学習の最近の進歩、特にディープラーニング(DL)では、デバイス固有の指紋を構成する複雑な特徴を抽出し学習するRFFシステムの能力が改善されている。
本稿では,DL ベースの RFF システム構築において直面する重要事項と課題を体系的に同定し,分析する。
論文 参考訳(メタデータ) (2023-10-25T06:45:49Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Automated Speaker Independent Visual Speech Recognition: A Comprehensive
Survey [0.0]
話者非依存のVSRは、話者の顔の動きのビデオ記録から音声語やフレーズを識別する複雑なタスクである。
この調査は、1990年から2023年までの話者に依存しないVSRシステムの進化を詳細に分析する。
論文 参考訳(メタデータ) (2023-06-14T07:33:43Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Visualizing Automatic Speech Recognition -- Means for a Better
Understanding? [0.1868368163807795]
我々は、画像認識からインポートし、オーディオデータを扱うのに適した属性法が、ASRの動作を明らかにするのにどう役立つかを示す。
ASRのエンドツーエンドモデルであるSpeech Deepをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-02-01T13:35:08Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z) - Video Super Resolution Based on Deep Learning: A Comprehensive Survey [87.30395002197344]
深層学習に基づく33の最先端ビデオ超解像法(VSR)を包括的に検討した。
そこで本研究では,フレーム間情報を利用した分類手法を提案し,その手法を6つのサブカテゴリに分類する。
いくつかのベンチマークデータセットにおける代表的VSR法の性能を要約し比較する。
論文 参考訳(メタデータ) (2020-07-25T13:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。