論文の概要: Benchmarking von ASR-Modellen im deutschen medizinischen Kontext: Eine Leistungsanalyse anhand von Anamnesegesprächen
- arxiv url: http://arxiv.org/abs/2601.19945v1
- Date: Fri, 23 Jan 2026 22:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.595937
- Title: Benchmarking von ASR-Modellen im deutschen medizinischen Kontext: Eine Leistungsanalyse anhand von Anamnesegesprächen
- Title(参考訳): ASR-Modellen im deutschen medizinischen Kontext: Eine Leistungsanalyse anhand von Anamnesegesprächen
- Authors: Thomas Schuster, Julius Trögele, Nico Döring, Robin Krüger, Matthieu Hoffmann, Holger Friedrich,
- Abstract要約: シミュレーションした医師と患者との会話のデータセットを作成し、合計29種類のASRモデルを評価した。
評価には3つの異なる指標(WER, CER, BLEU)を使用し,質的意味分析の展望を提供する。
- 参考スコア(独自算出の注目度): 0.0021757536468331165
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) offers significant potential to reduce the workload of medical personnel, for example, through the automation of documentation tasks. While numerous benchmarks exist for the English language, specific evaluations for the German-speaking medical context are still lacking, particularly regarding the inclusion of dialects. In this article, we present a curated dataset of simulated doctor-patient conversations and evaluate a total of 29 different ASR models. The test field encompasses both open-weights models from the Whisper, Voxtral, and Wav2Vec2 families as well as commercial state-of-the-art APIs (AssemblyAI, Deepgram). For evaluation, we utilize three different metrics (WER, CER, BLEU) and provide an outlook on qualitative semantic analysis. The results demonstrate significant performance differences between the models: while the best systems already achieve very good Word Error Rates (WER) of partly below 3%, the error rates of other models, especially concerning medical terminology or dialect-influenced variations, are considerably higher.
- Abstract(参考訳): 自動音声認識(ASR)は、例えばドキュメントタスクの自動化によって、医療従事者の作業量を削減できる重要な可能性を提供する。
英語のベンチマークは多数存在するが、ドイツ語の医学的文脈に関する具体的な評価は、特に方言の含意に関してまだ不足している。
本稿では、医師と患者との対話をシミュレーションしたデータセットを提示し、合計29種類のASRモデルを評価する。
テストフィールドにはWhisper、Voxtral、Wav2Vec2ファミリーのオープンウェイトモデルと商用最先端API(AssemblyAI、Deepgram)の両方が含まれている。
評価には3つの異なる指標(WER, CER, BLEU)を使用し,質的意味分析の展望を提供する。
その結果, 優れた単語誤り率(WER)が3%以下であるのに対して, 医療用語や方言の影響のばらつきなど他のモデルの誤り率は有意に高いことがわかった。
関連論文リスト
- TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering [11.575146661047368]
我々は,NLG評価指標の有効性を評価するために,新しい多言語ベンチマークであるMORQAを紹介する。
従来のメトリクスと大規模言語モデル(LLM)ベースの評価器(GPT-4やGeminiなど)をベンチマークする。
本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究である。
論文 参考訳(メタデータ) (2025-09-15T19:51:57Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Out of the Box, into the Clinic? Evaluating State-of-the-Art ASR for Clinical Applications for Older Adults [2.01562032767537]
本研究は,オランダ語話者の言語利用に関する最先端自動音声認識(ASR)モデルの評価である。
オランダ語話者を対象とした多言語ASRモデルのベンチマークを行った。
以上の結果から,汎用多言語モデルは細調整モデルよりも優れており,近年のASRモデルは実世界のデータセットにうまく一般化できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-12T07:17:44Z) - 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [2.3011663397108078]
3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。
内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。
診断畳み込みニューラルネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%向上する。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - Performant ASR Models for Medical Entities in Accented Speech [0.9346027495459037]
我々は、93のアフリカアクセントの英語臨床データセットを用いて、複数のASRモデルを厳格に評価した。
分析の結果, 単語誤り率 (WER) が低いモデルではあるものの, 臨床的実体の誤差は高く, 患者の安全性に重大なリスクが生じる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-18T08:19:48Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。