論文の概要: Symphony for Speech-to-Text: Supporting Real-Time Medical Voice Interfaces
- arxiv url: http://arxiv.org/abs/2605.16545v1
- Date: Fri, 15 May 2026 18:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.61804
- Title: Symphony for Speech-to-Text: Supporting Real-Time Medical Voice Interfaces
- Title(参考訳): 音声合成のためのシンフォニー:リアルタイム医療用音声インタフェース
- Authors: Arne Nix, Robert James, Lasse Borgholt, Anna B. Ekner, Lana Krumm, Julius Severin, Dan Engel, Lars Maaløe, Jakob Havtorn,
- Abstract要約: Symphony(シンフォニー)は、リアルタイムストリーミングおよびバッチファイルベースの臨床用医療用音声認識システムである。
臨床環境では,Symphonyが最先端システムを大幅に上回ることを示す。
信頼性検証と医療音声認識のさらなる進歩をサポートするための,臨床ベンチマークデータセットをリリースする。
- 参考スコア(独自算出の注目度): 2.2946642152815855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: After decades of use in dictation and, more recently, ambient documentation, speech is emerging as a primary modality for interacting with technology and AI in healthcare. Yet medical speech recognition remains difficult: systems must capture specialized terminology, resolve contextual ambiguity, and render measurements, abbreviations, and clinical shorthand precisely. Existing solutions are typically optimized either for general-purpose transcription or narrow dictation workflows, limiting their reliability in safety-critical settings and their usefulness for broader clinical workflows. We introduce Symphony for Speech-to-Text, a medical-grade speech recognition system for real-time streaming and batch file-based clinical use. Symphony decomposes the transcription process into specialized components for recognition, formatting, and contextual correction to optimize medical term recall while producing clinically structured text in real time and adapting across use cases. Evaluations on public benchmark and medical speech datasets show that Symphony substantially outperforms state-of-the-art systems in clinical settings while matching or exceeding them in general-domain settings, suggesting robust generalization rather than overfitting. We release a clinical benchmark dataset to support reliable validation and further progress in medical speech recognition. Symphony is available through a production-grade API for live dictation, conversational transcription, and batch audio file processing.
- Abstract(参考訳): 何十年にもわたって布告や、より最近では、医療におけるテクノロジーやAIと対話するための主要なモダリティとして、スピーチが出現している。
システムは専門用語を捉え、文脈のあいまいさを解決し、測定、略語、臨床の簡潔さを正確に表現しなければならない。
既存のソリューションは通常、汎用的な書き起こしワークフローや狭い予測ワークフローに最適化され、安全クリティカルな設定における信頼性とより広範な臨床ワークフローに有用性を制限する。
リアルタイムストリーミングおよびバッチファイルベースの臨床用医療用音声認識システムであるSymphony for Speech-to-Textを紹介する。
シンフォニーは、転写過程を認識、フォーマッティング、文脈補正のための特別な構成要素に分解し、医療用語のリコールを最適化し、臨床的に構造化されたテキストをリアルタイムで生成し、ユースケースに適応させる。
公開ベンチマークと医療音声データセットの評価から、Symphonyは、一般的なドメイン設定で適合または超過しながら、臨床環境で最先端のシステムを大幅に上回っており、過度に適合するのではなく、堅牢な一般化を示唆している。
信頼性検証と医療音声認識のさらなる進歩をサポートするための,臨床ベンチマークデータセットをリリースする。
Symphonyは、実演、会話の書き起こし、バッチオーディオファイル処理のためのプロダクショングレードのAPIを通じて利用できる。
関連論文リスト
- VIBEVOICE-ASR Technical Report [95.57263110940973]
VibeVoice-ASRは、ロングフォームオーディオにおけるコンテキスト断片化とマルチスピーカー複雑性の課題に対処する。
50以上の言語をサポートし、明示的な言語設定を必要としない。
論文 参考訳(メタデータ) (2026-01-26T06:11:51Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Automatic Speech Recognition for Greek Medical Dictation [5.543902482518564]
本論文の主な目的は,ギリシャ語医療用音声書き起こしのためのドメイン固有システムを作ることである。
自動音声認識技術とテキスト修正モデルを組み合わせたシステムを開発した。
論文 参考訳(メタデータ) (2025-09-28T01:15:47Z) - Benchmarking Automatic Speech Recognition coupled LLM Modules for Medical Diagnostics [0.0]
本報告は、医療電話記録に微調整されたモデルを分析する、私のセルフプロジェクトとして機能する。
音声書き起こしのための音声認識(ASR)と文脈認識のための大規模言語モデル(LLM)を解析する。
論文 参考訳(メタデータ) (2025-02-18T14:05:13Z) - Application of Audio Fingerprinting Techniques for Real-Time Scalable Speech Retrieval and Speech Clusterization [0.0]
本稿では,音声検索の専門的課題に対処するため,既存の手法を応用するための新たな知見を提供する。
単一のリクエストを容易にするのではなく、バッチ処理で迅速かつ正確なオーディオ検索を実現することに注力している。
本論文は,実際の音声からテキストへの変換を行なわずに,音声によるクラスタリングを支援する手法について述べる。
論文 参考訳(メタデータ) (2024-10-29T09:11:28Z) - Searching for Best Practices in Medical Transcription with Large Language Model [1.0855602842179624]
本稿では,Large Language Model (LLM) を用いて,高精度な医療書面を生成する手法を提案する。
提案手法は,単語誤り率(WER)を低くし,重要な医療用語の正確な認識を確保するために,高度な言語モデリング技術を統合する。
論文 参考訳(メタデータ) (2024-10-04T03:41:16Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。