論文の概要: Advances and Challenges in Deep Lip Reading
- arxiv url: http://arxiv.org/abs/2110.07879v1
- Date: Fri, 15 Oct 2021 06:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 02:09:24.571363
- Title: Advances and Challenges in Deep Lip Reading
- Title(参考訳): 深唇読解の進歩と課題
- Authors: Marzieh Oghbaie, Arian Sabaghi, Kooshan Hashemifard, and Mohammad
Akbari
- Abstract要約: 本稿では,最先端のディープラーニングに基づくビジュアル音声認識研究を包括的に調査する。
我々は、データ課題、タスク固有の合併症、およびそれに対応するソリューションに焦点を当てます。
また、VSRパイプラインの主モジュールと、影響のあるデータセットについても論じる。
- 参考スコア(独自算出の注目度): 2.930266486910376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by deep learning techniques and large-scale datasets, recent years
have witnessed a paradigm shift in automatic lip reading. While the main thrust
of Visual Speech Recognition (VSR) was improving accuracy of Audio Speech
Recognition systems, other potential applications, such as biometric
identification, and the promised gains of VSR systems, have motivated extensive
efforts on developing the lip reading technology. This paper provides a
comprehensive survey of the state-of-the-art deep learning based VSR research
with a focus on data challenges, task-specific complications, and the
corresponding solutions. Advancements in these directions will expedite the
transformation of silent speech interface from theory to practice. We also
discuss the main modules of a VSR pipeline and the influential datasets.
Finally, we introduce some typical VSR application concerns and impediments to
real-world scenarios as well as future research directions.
- Abstract(参考訳): 近年、ディープラーニング技術と大規模なデータセットによって、自動唇読解のパラダイムシフトが見られた。
視覚音声認識(vsr)の主な推進力は音声音声認識システムの精度向上であったが、生体認証やvsrシステムの期待される向上といった他の潜在的な応用は、口唇読解技術の開発に多大な努力を要した。
本稿では、データ課題、タスク固有の合併症、およびそれに対応するソリューションを中心に、最先端のディープラーニングベースのVSR研究を包括的に調査する。
これらの方向の進歩は、理論から実践への無声音声インタフェースの変容を早めるだろう。
また、VSRパイプラインの主モジュールと、影響のあるデータセットについても論じる。
最後に、現実のシナリオや今後の研究の方向性に典型的なVSRアプリケーションに関する懸念と障害を導入する。
関連論文リスト
- Automatic Speech Recognition using Advanced Deep Learning Approaches: A
survey [3.0528929038141484]
近年のディープラーニング(DL)の進歩は,自動音声認識(ASR)にとって重要な課題となっている。
ASRは、秘密のデータセットを含む広範なトレーニングデータセットに依存しており、かなりの計算とストレージリソースを必要としている。
ディープトランスファーラーニング(DTL)、フェデレーションラーニング(FL)、強化ラーニング(RL)といった高度なDL技術はこれらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-02T16:25:42Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [53.07303460914328]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Automated Speaker Independent Visual Speech Recognition: A Comprehensive
Survey [0.0]
話者非依存のVSRは、話者の顔の動きのビデオ記録から音声語やフレーズを識別する複雑なタスクである。
この調査は、1990年から2023年までの話者に依存しないVSRシステムの進化を詳細に分析する。
論文 参考訳(メタデータ) (2023-06-14T07:33:43Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Visualizing Automatic Speech Recognition -- Means for a Better
Understanding? [0.1868368163807795]
我々は、画像認識からインポートし、オーディオデータを扱うのに適した属性法が、ASRの動作を明らかにするのにどう役立つかを示す。
ASRのエンドツーエンドモデルであるSpeech Deepをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-02-01T13:35:08Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z) - Video Super Resolution Based on Deep Learning: A Comprehensive Survey [87.30395002197344]
深層学習に基づく33の最先端ビデオ超解像法(VSR)を包括的に検討した。
そこで本研究では,フレーム間情報を利用した分類手法を提案し,その手法を6つのサブカテゴリに分類する。
いくつかのベンチマークデータセットにおける代表的VSR法の性能を要約し比較する。
論文 参考訳(メタデータ) (2020-07-25T13:39:54Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。