Fugu-MT 論文翻訳(概要): Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech Recognition

論文の概要: Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2204.00448v1
Date: Fri, 1 Apr 2022 14:05:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-04 12:59:32.810340
Title: Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech Recognition
Title（参考訳）: 音声認識を用いたゼロショット言語間失語検出
Authors: Gerasimos Chatzoudis, Manos Plitsis, Spyridoula Stamouli, Athanasia-Lida Dimou, Athanasios Katsamanis, Vassilis Katsouros
Abstract要約: 失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
参考スコア（独自算出の注目度）: 3.2631198264090746
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Aphasia is a common speech and language disorder, typically caused by a brain injury or a stroke, that affects millions of people worldwide. Detecting and assessing Aphasia in patients is a difficult, time-consuming process, and numerous attempts to automate it have been made, the most successful using machine learning models trained on aphasic speech data. Like in many medical applications, aphasic speech data is scarce and the problem is exacerbated in so-called "low resource" languages, which are, for this task, most languages excluding English. We attempt to leverage available data in English and achieve zero-shot aphasia detection in low-resource languages such as Greek and French, by using language-agnostic linguistic features. Current cross-lingual aphasia detection approaches rely on manually extracted transcripts. We propose an end-to-end pipeline using pre-trained Automatic Speech Recognition (ASR) models that share cross-lingual speech representations and are fine-tuned for our desired low-resource languages. To further boost our ASR model's performance, we also combine it with a language model. We show that our ASR-based end-to-end pipeline offers comparable results to previous setups using human-annotated transcripts.
Abstract（参考訳）: 失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。失語症の検出と評価は難しく、時間を要するプロセスであり、その自動化に多くの試みがなされており、失語症音声データに基づいて訓練された機械学習モデルが最も成功した。多くの医学的応用と同様に、失語症の音声データは乏しく、その問題はいわゆる「低リソース」言語で悪化している。英語で利用可能なデータを活用し,ギリシャ語やフランス語などの低リソース言語におけるゼロショット失語検出を実現する。現在の言語間失語検出手法は手作業で抽出した転写文に依存している。本稿では,言語間の音声表現を共有する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。 asrモデルのパフォーマンスをさらに向上するために、言語モデルと組み合わせることも行っています。 ASRをベースとしたエンドツーエンドパイプラインは,人間のアノテーションを用いた以前のセットアップと同等の結果が得られることを示す。

関連論文リスト

LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration [19.403991814044424]
正書法統一とLAMA-UT(Language-Agnostic Multilingual ASR Pipeline)による言語に依存しないASRパイプラインを提案する。 LAMA-UTは、最小限のデータ量でトレーニングされた最先端モデルのパフォーマンスに適合しながら、言語固有のモジュールなしで動作します。パイプラインはWhisperと比較して45%の相対誤差低減率を実現し,MMSと相容れない性能を示した。
論文参考訳（メタデータ） (2024-12-19T10:39:08Z)
Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文参考訳（メタデータ） (2024-06-16T17:51:22Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
Adaptive Activation Network For Low Resource Multilingual Speech Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。 IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2022-05-28T04:02:59Z)
A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文参考訳（メタデータ） (2022-02-25T09:31:40Z)
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文参考訳（メタデータ） (2022-01-26T22:12:55Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文参考訳（メタデータ） (2020-06-24T19:16:02Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。