論文の概要: Automated Speaker Independent Visual Speech Recognition: A Comprehensive
Survey
- arxiv url: http://arxiv.org/abs/2306.08314v1
- Date: Wed, 14 Jun 2023 07:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:56:06.614465
- Title: Automated Speaker Independent Visual Speech Recognition: A Comprehensive
Survey
- Title(参考訳): 自動話者独立視覚音声認識:包括的調査
- Authors: Praneeth Nemani, G. Sai Krishna, Supriya Kundrapu
- Abstract要約: 話者非依存のVSRは、話者の顔の動きのビデオ記録から音声語やフレーズを識別する複雑なタスクである。
この調査は、1990年から2023年までの話者に依存しないVSRシステムの進化を詳細に分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Speaker-independent VSR is a complex task that involves identifying spoken
words or phrases from video recordings of a speaker's facial movements. Over
the years, there has been a considerable amount of research in the field of VSR
involving different algorithms and datasets to evaluate system performance.
These efforts have resulted in significant progress in developing effective VSR
models, creating new opportunities for further research in this area. This
survey provides a detailed examination of the progression of VSR over the past
three decades, with a particular emphasis on the transition from
speaker-dependent to speaker-independent systems. We also provide a
comprehensive overview of the various datasets used in VSR research and the
preprocessing techniques employed to achieve speaker independence. The survey
covers the works published from 1990 to 2023, thoroughly analyzing each work
and comparing them on various parameters. This survey provides an in-depth
analysis of speaker-independent VSR systems evolution from 1990 to 2023. It
outlines the development of VSR systems over time and highlights the need to
develop end-to-end pipelines for speaker-independent VSR. The pictorial
representation offers a clear and concise overview of the techniques used in
speaker-independent VSR, thereby aiding in the comprehension and analysis of
the various methodologies. The survey also highlights the strengths and
limitations of each technique and provides insights into developing novel
approaches for analyzing visual speech cues. Overall, This comprehensive review
provides insights into the current state-of-the-art speaker-independent VSR and
highlights potential areas for future research.
- Abstract(参考訳): 話者非依存のVSRは、話者の顔の動きのビデオ記録から音声語やフレーズを識別する複雑なタスクである。
長年にわたり、システムパフォーマンスを評価するために異なるアルゴリズムとデータセットを含むvsrの分野でかなりの研究が行われてきた。
これらの取り組みは有効なVSRモデルの開発に大きな進歩をもたらし、この分野におけるさらなる研究の機会を生み出した。
この調査は、過去30年間のVSRの進展を詳細に調査し、特に話者に依存しないシステムから話者に依存しないシステムへの移行に焦点を当てている。
また、VSR研究で使用される各種データセットの概要と、話者独立を達成するために使用される事前処理技術についても概説する。
この調査は1990年から2023年にかけて出版された著作を網羅し、各著作を徹底的に分析し、様々なパラメータと比較している。
この調査は、1990年から2023年までの話者に依存しないVSRシステムの進化を詳細に分析する。
VSRシステムの開発について概説し、話者に依存しないVSRのためのエンドツーエンドパイプラインを開発する必要性を強調している。
画像表現は、話者に依存しないVSRで使用されるテクニックの明確かつ簡潔な概要を提供し、それによって様々な方法論の理解と分析を支援する。
調査ではまた、それぞれのテクニックの強みと限界を強調し、視覚音声の手がかりを分析するための新しいアプローチの開発に関する洞察を提供する。
全体として、この総合的なレビューは、現在最先端の話者非依存のVSRに関する洞察を提供し、将来の研究の可能性を強調している。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - A Survey on Interpretable Cross-modal Reasoning [64.37362731950843]
マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。
この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる
本調査では,I-CMRの3段階分類法について概説する。
論文 参考訳(メタデータ) (2023-09-05T05:06:48Z) - HEAR 2021: Holistic Evaluation of Audio Representations [55.324557862041985]
HEAR 2021 NeurIPSの課題は、学習の強力な基盤を提供する汎用オーディオ表現を開発することである。
HEAR 2021は、音声、環境音、音楽を含む様々な領域にわたるベンチマークスイートを用いて、音声表現を評価する。
16個のデータセットから抽出した19種類の下流タスクに対して,13の外部チームによる2つのモデルを評価した。
論文 参考訳(メタデータ) (2022-03-06T18:13:09Z) - Advances and Challenges in Deep Lip Reading [2.930266486910376]
本稿では,最先端のディープラーニングに基づくビジュアル音声認識研究を包括的に調査する。
我々は、データ課題、タスク固有の合併症、およびそれに対応するソリューションに焦点を当てます。
また、VSRパイプラインの主モジュールと、影響のあるデータセットについても論じる。
論文 参考訳(メタデータ) (2021-10-15T06:18:26Z) - Video Super Resolution Based on Deep Learning: A Comprehensive Survey [87.30395002197344]
深層学習に基づく33の最先端ビデオ超解像法(VSR)を包括的に検討した。
そこで本研究では,フレーム間情報を利用した分類手法を提案し,その手法を6つのサブカテゴリに分類する。
いくつかのベンチマークデータセットにおける代表的VSR法の性能を要約し比較する。
論文 参考訳(メタデータ) (2020-07-25T13:39:54Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。