論文の概要: Personalized One-Shot Lipreading for an ALS Patient
- arxiv url: http://arxiv.org/abs/2111.01740v1
- Date: Tue, 2 Nov 2021 17:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 12:41:18.809225
- Title: Personalized One-Shot Lipreading for an ALS Patient
- Title(参考訳): ALS患者に対するPersonalized One-Shot Lipreading
- Authors: Bipasha Sen, Aditya Agarwal, Rudrabha Mukhopadhyay, Vinay Namboodiri,
C V Jawahar
- Abstract要約: 単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。
変分に基づくドメイン適応手法は、実合成ドメインギャップを橋渡しするために用いられる。
本手法は, 患者に対する62.6%の方法と比較して, 83.2%の精度で高いトップ5の精度を実現している。
- 参考スコア(独自算出の注目度): 34.59007152584927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lipreading or visually recognizing speech from the mouth movements of a
speaker is a challenging and mentally taxing task. Unfortunately, multiple
medical conditions force people to depend on this skill in their day-to-day
lives for essential communication. Patients suffering from Amyotrophic Lateral
Sclerosis (ALS) often lose muscle control, consequently their ability to
generate speech and communicate via lip movements. Existing large datasets do
not focus on medical patients or curate personalized vocabulary relevant to an
individual. Collecting a large-scale dataset of a patient, needed to train
mod-ern data-hungry deep learning models is, however, extremely challenging. In
this work, we propose a personalized network to lipread an ALS patient using
only one-shot examples. We depend on synthetically generated lip movements to
augment the one-shot scenario. A Variational Encoder based domain adaptation
technique is used to bridge the real-synthetic domain gap. Our approach
significantly improves and achieves high top-5accuracy with 83.2% accuracy
compared to 62.6% achieved by comparable methods for the patient. Apart from
evaluating our approach on the ALS patient, we also extend it to people with
hearing impairment relying extensively on lip movements to communicate.
- Abstract(参考訳): 話者の口の動きから音声を読み取る、あるいは視覚的に認識することは、挑戦的で精神的に課税するタスクである。
残念なことに、複数の医療条件により、人々は日々の生活の中でこのスキルに頼らざるを得ない。
筋萎縮性側索硬化症(ALS)に苦しむ患者は、しばしば筋肉のコントロールを失い、その結果、発声能力と唇の動きによるコミュニケーション能力を失う。
既存の大規模データセットは、医療患者に焦点を当てたり、個人に関連するパーソナライズされた語彙をキュレーションしたりしない。
しかし、mod-ernデータ格納型ディープラーニングモデルのトレーニングに必要な、患者の大規模なデータセットの収集は、非常に難しい。
本研究では,単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。
合成唇の動きに頼ってワンショットシナリオを増強した。
変分エンコーダに基づくドメイン適応手法は、実合成領域ギャップを橋渡しするために用いられる。
本手法は, 患者に対する62.6%と比較して, 高いトップ5精度を83.2%精度で達成する。
また, ALS患者に対するアプローチの評価とは別に, 口唇運動に大きく依存する難聴者にも適用した。
関連論文リスト
- Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文 参考訳(メタデータ) (2024-02-10T16:16:24Z) - README: Bridging Medical Jargon and Lay Understanding for Patient
Education through Data-Centric NLP [9.746045026596638]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
私たちはまず、2万以上のユニークな医療用語と30万件の言及からなるデータセットを作成しました。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Mimetic Muscle Rehabilitation Analysis Using Clustering of Low
Dimensional 3D Kinect Data [1.53119329713143]
本報告では, 筋損傷による顔面麻痺患者のリハビリテーションに対する非観血的アプローチについて考察する。
本研究は,HB(House-Brackmann)尺度など,現在の主観的アプローチと比較して,リハビリテーションプロセスの客観的化を目的としている。
この研究は、Kinectステレオビジョンカメラを用いて得られた120の計測値を持つ85人の異なる患者のデータセットを含んでいる。
論文 参考訳(メタデータ) (2023-02-15T09:45:27Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - The Phonetic Footprint of Parkinson's Disease [16.64383793837174]
パーキンソン病(PD)は患者の運動能力に重大な影響を及ぼす。
母音の不安定性、スラリー発音、遅い発声などの特徴パターンは、影響を受けた個人によく見られる。
健常者を対象に訓練した音声認識器を用いて, PDが患者の音声足跡に与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-21T20:44:21Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Automatic Speaker Independent Dysarthric Speech Intelligibility
Assessment System [28.01689694536572]
構音障害(dysarthria)は、個人が発声において重要な役割を果たす筋肉を制御する能力を妨げる状態である。
唇、声帯、舌、横隔膜の動きを補助する筋肉の微細な制御の喪失は、異常な発声をもたらす。
個人が話す音声の知性を分析して、構音のレベルを評価することができる。
論文 参考訳(メタデータ) (2021-03-10T16:15:32Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。