論文の概要: SpeechMedAssist: Efficiently and Effectively Adapting Speech Language Models for Medical Consultation
- arxiv url: http://arxiv.org/abs/2601.04638v1
- Date: Thu, 08 Jan 2026 06:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.066123
- Title: SpeechMedAssist: Efficiently and Effectively Adapting Speech Language Models for Medical Consultation
- Title(参考訳): SpeechMedAssist:医療相談用音声モデルの有用性と有効性
- Authors: Sirry Chen, Jieyi Wang, Wei Chen, Zhongyu Wei,
- Abstract要約: 本稿では,患者と音声によるマルチターンインタラクションを実現するSpeechMedAssistを提案する。
本研究では,SpeechLMのアーキテクチャ特性を利用して,従来のワンステージトレーニングを2段階のパラダイムに分離する。
我々のモデルは、ほとんどの評価設定において、有効性とロバスト性の両方において全てのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 30.493851883411878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical consultations are intrinsically speech-centric. However, most prior works focus on long-text-based interactions, which are cumbersome and patient-unfriendly. Recent advances in speech language models (SpeechLMs) have enabled more natural speech-based interaction, yet the scarcity of medical speech data and the inefficiency of directly fine-tuning on speech data jointly hinder the adoption of SpeechLMs in medical consultation. In this paper, we propose SpeechMedAssist, a SpeechLM natively capable of conducting speech-based multi-turn interactions with patients. By exploiting the architectural properties of SpeechLMs, we decouple the conventional one-stage training into a two-stage paradigm consisting of (1) Knowledge & Capability Injection via Text and (2) Modality Re-alignment with Limited Speech Data, thereby reducing the requirement for medical speech data to only 10k synthesized samples. To evaluate SpeechLMs for medical consultation scenarios, we design a benchmark comprising both single-turn question answering and multi-turn simulated interactions. Experimental results show that our model outperforms all baselines in both effectiveness and robustness in most evaluation settings.
- Abstract(参考訳): 医療相談は本質的に言語中心である。
しかし、ほとんどの先行研究は長文ベースのインタラクションに焦点を合わせており、扱いにくいし、患者に親しみやすい。
近年の音声言語モデル(SpeechLMs)の進歩により、より自然な音声による対話が可能になったが、医療用音声データの不足や、音声データを直接微調整する効率の低下が、医療相談におけるSpeechLMの採用を妨げている。
本稿では,患者とのマルチターン対話をネイティブに行うことができるSpeechMedAssistを提案する。
本研究では,(1)テキストによる知識と能力の注入,(2)限定音声データによるモダリティの調整という2段階のパラダイムに分割し,医療用音声データの要求を10kの合成サンプルに減らした。
医療相談シナリオにおけるSpeechLMの評価のために,単ターン質問応答と多ターンシミュレーションの相互作用を併用したベンチマークを設計した。
実験結果から,本モデルは,ほとんどの評価設定において,有効性とロバスト性の両方において,すべてのベースラインに優れることがわかった。
関連論文リスト
- SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis [33.90335501244261]
音声と3次元CTのボリュームを共有表現空間で整列するコントラストモデルを訓練する。
実験では0ショット分類F1が0.623から0.705に改善され、性能差の88%が回復した。
これらの知見は,マルチモーダル・プレトレーニングにおけるテキストの代替手段としての音声を強調し,臨床実践における音声駆動診断支援ツールへの扉を開く。
論文 参考訳(メタデータ) (2025-09-24T15:17:21Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond [0.0]
Afrispeech-Dialogは、医学的および非医学的アフリカ中心の英語会話を模擬した50のベンチマークデータセットである。
長音のアクセント付き音声に対して,最先端話者ダイアリゼーション(SOTA)とASRシステムを評価し,その性能をネイティブアクセントと比較し,10%以上の性能劣化を見出した。
論文 参考訳(メタデータ) (2025-02-06T10:33:07Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z) - MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech [4.384576489684272]
本稿では,音声中のリアルタイムシーケンスラベリングに対する新しいアプローチを提案する。
本モデルでは、音声とそれ自身のテキスト表現を2つの異なるモダリティまたはビューとして扱う。
テキストや音声のみと比較して,2つのモードから共同学習を行うことで大きな効果が得られた。
論文 参考訳(メタデータ) (2020-05-02T12:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。