論文の概要: Personalized One-Shot Lipreading for an ALS Patient
- arxiv url: http://arxiv.org/abs/2111.01740v1
- Date: Tue, 2 Nov 2021 17:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 12:41:18.809225
- Title: Personalized One-Shot Lipreading for an ALS Patient
- Title(参考訳): ALS患者に対するPersonalized One-Shot Lipreading
- Authors: Bipasha Sen, Aditya Agarwal, Rudrabha Mukhopadhyay, Vinay Namboodiri,
C V Jawahar
- Abstract要約: 単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。
変分に基づくドメイン適応手法は、実合成ドメインギャップを橋渡しするために用いられる。
本手法は, 患者に対する62.6%の方法と比較して, 83.2%の精度で高いトップ5の精度を実現している。
- 参考スコア(独自算出の注目度): 34.59007152584927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lipreading or visually recognizing speech from the mouth movements of a
speaker is a challenging and mentally taxing task. Unfortunately, multiple
medical conditions force people to depend on this skill in their day-to-day
lives for essential communication. Patients suffering from Amyotrophic Lateral
Sclerosis (ALS) often lose muscle control, consequently their ability to
generate speech and communicate via lip movements. Existing large datasets do
not focus on medical patients or curate personalized vocabulary relevant to an
individual. Collecting a large-scale dataset of a patient, needed to train
mod-ern data-hungry deep learning models is, however, extremely challenging. In
this work, we propose a personalized network to lipread an ALS patient using
only one-shot examples. We depend on synthetically generated lip movements to
augment the one-shot scenario. A Variational Encoder based domain adaptation
technique is used to bridge the real-synthetic domain gap. Our approach
significantly improves and achieves high top-5accuracy with 83.2% accuracy
compared to 62.6% achieved by comparable methods for the patient. Apart from
evaluating our approach on the ALS patient, we also extend it to people with
hearing impairment relying extensively on lip movements to communicate.
- Abstract(参考訳): 話者の口の動きから音声を読み取る、あるいは視覚的に認識することは、挑戦的で精神的に課税するタスクである。
残念なことに、複数の医療条件により、人々は日々の生活の中でこのスキルに頼らざるを得ない。
筋萎縮性側索硬化症(ALS)に苦しむ患者は、しばしば筋肉のコントロールを失い、その結果、発声能力と唇の動きによるコミュニケーション能力を失う。
既存の大規模データセットは、医療患者に焦点を当てたり、個人に関連するパーソナライズされた語彙をキュレーションしたりしない。
しかし、mod-ernデータ格納型ディープラーニングモデルのトレーニングに必要な、患者の大規模なデータセットの収集は、非常に難しい。
本研究では,単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。
合成唇の動きに頼ってワンショットシナリオを増強した。
変分エンコーダに基づくドメイン適応手法は、実合成領域ギャップを橋渡しするために用いられる。
本手法は, 患者に対する62.6%と比較して, 高いトップ5精度を83.2%精度で達成する。
また, ALS患者に対するアプローチの評価とは別に, 口唇運動に大きく依存する難聴者にも適用した。
関連論文リスト
- Dementia Detection using Multi-modal Methods on Audio Data [1.5517328698216646]
本稿では,患者の音声記録を用いて認知症の発症を予測するために開発されたモデルについて述べる。
音声ファイルからWhisperモデルを用いて書き起こしを生成し,RoBERTa回帰モデルを用いてMMSEスコアを生成するASRベースのモデルを開発した。
RMSEスコアは2.6911で、ベースラインよりも約10%低い。
論文 参考訳(メタデータ) (2024-12-31T14:26:54Z) - LEARNER: Learning Granular Labels from Coarse Labels using Contrastive Learning [28.56726678583327]
マルチ患者スキャンで訓練されたモデルは、患者のスキャンの微妙な変化を予測することができるか?
最近のコンピュータビジョンモデルは、大きな違いを示すデータに基づいて訓練しながら、きめ細かい違いを学習する。
複数の患者からのクリップに事前トレーニングされたモデルでは、コントラスト学習を用いることで、単一の患者からのスキャンの微妙な違いをより正確に予測できることがわかった。
論文 参考訳(メタデータ) (2024-11-02T05:27:52Z) - Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer [56.17737749551133]
ニューラルネットワークを用いたALS病進行自動予測器であるALS長手音声変換器(ALST)を提案する。
録音における高品質な事前訓練音声特徴と長手情報を活用することで、最良のモデルが91.0%のAUCを達成できる。
ALSTはALS進行の細粒度で解釈可能な予測が可能で、特に稀な症例と重篤な症例の区別が可能である。
論文 参考訳(メタデータ) (2024-06-26T13:28:24Z) - Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文 参考訳(メタデータ) (2024-02-10T16:16:24Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Automatic Speaker Independent Dysarthric Speech Intelligibility
Assessment System [28.01689694536572]
構音障害(dysarthria)は、個人が発声において重要な役割を果たす筋肉を制御する能力を妨げる状態である。
唇、声帯、舌、横隔膜の動きを補助する筋肉の微細な制御の喪失は、異常な発声をもたらす。
個人が話す音声の知性を分析して、構音のレベルを評価することができる。
論文 参考訳(メタデータ) (2021-03-10T16:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。