Fugu-MT 論文翻訳(概要): Personalized One-Shot Lipreading for an ALS Patient

論文の概要: Personalized One-Shot Lipreading for an ALS Patient

arxiv url: http://arxiv.org/abs/2111.01740v1
Date: Tue, 2 Nov 2021 17:03:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-03 12:41:18.809225
Title: Personalized One-Shot Lipreading for an ALS Patient
Title（参考訳）: ALS患者に対するPersonalized One-Shot Lipreading
Authors: Bipasha Sen, Aditya Agarwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar
Abstract要約: 単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。変分に基づくドメイン適応手法は、実合成ドメインギャップを橋渡しするために用いられる。本手法は, 患者に対する62.6%の方法と比較して, 83.2%の精度で高いトップ5の精度を実現している。
参考スコア（独自算出の注目度）: 34.59007152584927
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Lipreading or visually recognizing speech from the mouth movements of a speaker is a challenging and mentally taxing task. Unfortunately, multiple medical conditions force people to depend on this skill in their day-to-day lives for essential communication. Patients suffering from Amyotrophic Lateral Sclerosis (ALS) often lose muscle control, consequently their ability to generate speech and communicate via lip movements. Existing large datasets do not focus on medical patients or curate personalized vocabulary relevant to an individual. Collecting a large-scale dataset of a patient, needed to train mod-ern data-hungry deep learning models is, however, extremely challenging. In this work, we propose a personalized network to lipread an ALS patient using only one-shot examples. We depend on synthetically generated lip movements to augment the one-shot scenario. A Variational Encoder based domain adaptation technique is used to bridge the real-synthetic domain gap. Our approach significantly improves and achieves high top-5accuracy with 83.2% accuracy compared to 62.6% achieved by comparable methods for the patient. Apart from evaluating our approach on the ALS patient, we also extend it to people with hearing impairment relying extensively on lip movements to communicate.
Abstract（参考訳）: 話者の口の動きから音声を読み取る、あるいは視覚的に認識することは、挑戦的で精神的に課税するタスクである。残念なことに、複数の医療条件により、人々は日々の生活の中でこのスキルに頼らざるを得ない。筋萎縮性側索硬化症(ALS)に苦しむ患者は、しばしば筋肉のコントロールを失い、その結果、発声能力と唇の動きによるコミュニケーション能力を失う。既存の大規模データセットは、医療患者に焦点を当てたり、個人に関連するパーソナライズされた語彙をキュレーションしたりしない。しかし、mod-ernデータ格納型ディープラーニングモデルのトレーニングに必要な、患者の大規模なデータセットの収集は、非常に難しい。本研究では,単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。合成唇の動きに頼ってワンショットシナリオを増強した。変分エンコーダに基づくドメイン適応手法は、実合成領域ギャップを橋渡しするために用いられる。本手法は, 患者に対する62.6%と比較して, 高いトップ5精度を83.2%精度で達成する。また, ALS患者に対するアプローチの評価とは別に, 口唇運動に大きく依存する難聴者にも適用した。

関連論文リスト

Modeling Challenging Patient Interactions: LLMs for Medical Communication Training [39.67477471073807]
本研究は,患者とのコミュニケーションスタイルをシミュレートするためのLarge Language Models (LLMs) を提案する。感情的・会話的特徴を具現化した仮想患者(VP)を開発した。医療専門家はこれらのVPを評価し、信頼度(3.8 pm 1.0$;合理化:3.7 pm 0.8$)を評価し、彼らのスタイルを正確に識別した。
論文参考訳（メタデータ） (2025-03-28T09:04:10Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Dementia Detection using Multi-modal Methods on Audio Data [1.5517328698216646]
本稿では,患者の音声記録を用いて認知症の発症を予測するために開発されたモデルについて述べる。音声ファイルからWhisperモデルを用いて書き起こしを生成し,RoBERTa回帰モデルを用いてMMSEスコアを生成するASRベースのモデルを開発した。 RMSEスコアは2.6911で、ベースラインよりも約10%低い。
論文参考訳（メタデータ） (2024-12-31T14:26:54Z)
LEARNER: Learning Granular Labels from Coarse Labels using Contrastive Learning [28.56726678583327]
マルチ患者スキャンで訓練されたモデルは、患者のスキャンの微妙な変化を予測することができるか? 最近のコンピュータビジョンモデルは、大きな違いを示すデータに基づいて訓練しながら、きめ細かい違いを学習する。複数の患者からのクリップに事前トレーニングされたモデルでは、コントラスト学習を用いることで、単一の患者からのスキャンの微妙な違いをより正確に予測できることがわかった。
論文参考訳（メタデータ） (2024-11-02T05:27:52Z)
DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech [3.3379026542599934]
認知症は、世界中の何千万人もの人に影響を及ぼす敏感な神経認知障害である。認知症分類の最近の進歩は、敵が影響を受けた個人のプライバシーを侵害することを可能にしている。既存の難読化法は認知症には適用されていない。
論文参考訳（メタデータ） (2024-10-05T15:07:03Z)
Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer [56.17737749551133]
ニューラルネットワークを用いたALS病進行自動予測器であるALS長手音声変換器(ALST)を提案する。録音における高品質な事前訓練音声特徴と長手情報を活用することで、最良のモデルが91.0%のAUCを達成できる。 ALSTはALS進行の細粒度で解釈可能な予測が可能で、特に稀な症例と重篤な症例の区別が可能である。
論文参考訳（メタデータ） (2024-06-26T13:28:24Z)
Speech motion anomaly detection via cross-modal translation of 4D motion fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文参考訳（メタデータ） (2024-02-10T16:16:24Z)
README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文参考訳（メタデータ） (2023-12-24T23:01:00Z)
Automatically measuring speech fluency in people with aphasia: first achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文参考訳（メタデータ） (2023-08-09T07:51:40Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。変形性音声の質は統計VCによって大幅に改善される。しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文参考訳（メタデータ） (2021-06-02T18:41:03Z)
Automatic Speaker Independent Dysarthric Speech Intelligibility Assessment System [28.01689694536572]
構音障害(dysarthria)は、個人が発声において重要な役割を果たす筋肉を制御する能力を妨げる状態である。唇、声帯、舌、横隔膜の動きを補助する筋肉の微細な制御の喪失は、異常な発声をもたらす。個人が話す音声の知性を分析して、構音のレベルを評価することができる。
論文参考訳（メタデータ） (2021-03-10T16:15:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。