Fugu-MT 論文翻訳(概要): Out of the Box, into the Clinic? Evaluating State-of-the-Art ASR for Clinical Applications for Older Adults

論文の概要: Out of the Box, into the Clinic? Evaluating State-of-the-Art ASR for Clinical Applications for Older Adults

arxiv url: http://arxiv.org/abs/2508.08684v3
Date: Wed, 01 Oct 2025 07:06:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-02 17:16:29.728289
Title: Out of the Box, into the Clinic? Evaluating State-of-the-Art ASR for Clinical Applications for Older Adults
Title（参考訳）: 箱からクリニックへ : 高齢者の臨床応用のための最先端ASRの評価
Authors: Bram van Dijk, Tiberon Kuiper, Sirin Aoulad si Ahmed, Armel Levebvre, Jake Johnson, Jan Duin, Simon Mooijaart, Marco Spruit,
Abstract要約: 本研究は,オランダ語話者の言語利用に関する最先端自動音声認識(ASR)モデルの評価である。オランダ語話者を対象とした多言語ASRモデルのベンチマークを行った。以上の結果から,汎用多言語モデルは細調整モデルよりも優れており,近年のASRモデルは実世界のデータセットにうまく一般化できる可能性が示唆された。
参考スコア（独自算出の注目度）: 2.01562032767537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Voice-controlled interfaces can support older adults in clinical contexts -- with chatbots being a prime example -- but reliable Automatic Speech Recognition (ASR) for underrepresented groups remains a bottleneck. This study evaluates state-of-the-art ASR models on language use of older Dutch adults, who interacted with the Welzijn.AI chatbot designed for geriatric contexts. We benchmark generic multilingual ASR models, and models fine-tuned for Dutch spoken by older adults, while also considering processing speed. Our results show that generic multilingual models outperform fine-tuned models, which suggests recent ASR models can generalise well out of the box to real-world datasets. Moreover, our results indicate that truncating generic models is helpful in balancing the accuracy-speed trade-off. Nonetheless, we also find inputs which cause a high word error rate and place them in context.
Abstract（参考訳）: 音声制御インターフェイスは、チャットボットが主要な例である、臨床的文脈で高齢者をサポートすることができるが、表現不足なグループに対する信頼性の高い自動音声認識(ASR)はボトルネックのままである。本研究は、老年オランダ人成人の言語使用に関する最先端のASRモデルについて、老年期の文脈に配慮したWelzijn.AIチャットボットと対話した。オランダ語話者が発話する多言語ASRモデルをベンチマークし,処理速度も検討した。以上の結果から,汎用多言語モデルは細調整モデルよりも優れており,近年のASRモデルは実世界のデータセットにうまく一般化できる可能性が示唆された。さらに,本研究の結果から,汎用モデルの切り抜きは,精度と速度のトレードオフのバランスをとる上で有用であることが示唆された。それにもかかわらず、高い単語誤り率の原因となる入力を見つけ、それらを文脈に配置する。

関連論文リスト

Benchmarking von ASR-Modellen im deutschen medizinischen Kontext: Eine Leistungsanalyse anhand von Anamnesegesprächen [0.0021757536468331165]
シミュレーションした医師と患者との会話のデータセットを作成し、合計29種類のASRモデルを評価した。評価には3つの異なる指標(WER, CER, BLEU)を使用し,質的意味分析の展望を提供する。
論文参考訳（メタデータ） (2026-01-23T22:32:40Z)
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文参考訳（メタデータ） (2026-01-09T22:01:56Z)
Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。 SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文参考訳（メタデータ） (2025-08-22T17:59:35Z)
ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition [4.0048516930686535]
本稿では,生ビデオからAVSRデータセットを生成するための実用的な手法を提案する。ベトナムのためのベースラインAVSRモデルを開発することで、その幅広い適用性を実証する。
論文参考訳（メタデータ） (2025-06-05T05:13:01Z)
Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文参考訳（メタデータ） (2024-11-28T05:23:22Z)
Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文参考訳（メタデータ） (2024-11-01T19:11:54Z)
Quantifying the Role of Textual Predictability in Automatic Speech Recognition [13.306122574236232]
音声認識研究における長年の疑問は、エラーを音響をモデル化するモデルの能力にどのように属性付けるかである。テキストの相対的予測可能性の関数として誤り率をモデル化する新しい手法を検証する。本稿では,ASRの診断と改善において,このアプローチがいかに簡単に利用できるかを示す。
論文参考訳（メタデータ） (2024-07-23T14:47:25Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
ASR4REAL: An extended benchmark for speech models [19.348785785921446]
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
論文参考訳（メタデータ） (2021-10-16T14:34:25Z)
Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文参考訳（メタデータ） (2021-09-27T15:04:00Z)
Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文参考訳（メタデータ） (2020-07-04T07:15:13Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。