論文の概要: VocalAgent: Large Language Models for Vocal Health Diagnostics with Safety-Aware Evaluation
- arxiv url: http://arxiv.org/abs/2505.13577v1
- Date: Mon, 19 May 2025 14:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.455259
- Title: VocalAgent: Large Language Models for Vocal Health Diagnostics with Safety-Aware Evaluation
- Title(参考訳): VocalAgent:安全性を考慮した声道健康診断のための大規模言語モデル
- Authors: Yubin Kim, Taehan Kim, Wonjune Kang, Eugene Park, Joonsik Yoon, Dongjae Lee, Xin Liu, Daniel McDuff, Hyeonhoon Lee, Cynthia Breazeal, Hae Won Park,
- Abstract要約: 本稿では,音声による健康診断を通じてこれらの課題に対処する音声大言語モデル(LLM)であるVocalAgentを紹介する。
Qwen-Audio-Chatを病院患者から収集した3つのデータセットに微調整した。
VocalAgentは、最先端のベースラインと比較して、音声障害分類において優れた精度を示す。
- 参考スコア(独自算出の注目度): 33.05879713740907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vocal health plays a crucial role in peoples' lives, significantly impacting their communicative abilities and interactions. However, despite the global prevalence of voice disorders, many lack access to convenient diagnosis and treatment. This paper introduces VocalAgent, an audio large language model (LLM) to address these challenges through vocal health diagnosis. We leverage Qwen-Audio-Chat fine-tuned on three datasets collected in-situ from hospital patients, and present a multifaceted evaluation framework encompassing a safety assessment to mitigate diagnostic biases, cross-lingual performance analysis, and modality ablation studies. VocalAgent demonstrates superior accuracy on voice disorder classification compared to state-of-the-art baselines. Its LLM-based method offers a scalable solution for broader adoption of health diagnostics, while underscoring the importance of ethical and technical validation.
- Abstract(参考訳): 声道の健康は人々の生活において重要な役割を担い、コミュニケーション能力と相互作用に大きな影響を及ぼす。
しかし、世界的な音声障害の流行にもかかわらず、多くの患者は便利な診断と治療へのアクセスを欠いている。
本稿では,音声による健康診断を通じてこれらの課題に対処する音声大言語モデル(LLM)であるVocalAgentを紹介する。
本研究は,Qwen-Audio-Chatを病院患者から収集した3つのデータセットに基づいて微調整し,診断バイアスを緩和するための安全性評価,言語間性能分析,モダリティ・アブレーション研究を含む多面的評価フレームワークを提案する。
VocalAgentは、最先端のベースラインと比較して、音声障害分類において優れた精度を示す。
LLMベースの手法は、医療診断を広く採用するためのスケーラブルなソリューションを提供すると同時に、倫理的および技術的検証の重要性を強調している。
関連論文リスト
- CaReAQA: A Cardiac and Respiratory Audio Question Answering Model for Open-Ended Diagnostic Reasoning [17.462121203082006]
CaReAQAは、基礎的なオーディオモデルと大きな言語モデルの推論機能を統合するオーディオ言語モデルである。
メタデータを付加したアノテートされた医療オーディオ記録のベンチマークデータセットであるCaReSoundを紹介する。
評価の結果、CaReAQAは、オープンエンド診断推論タスクにおいて86.2%の精度を達成していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T11:42:46Z) - Voice Biomarker Analysis and Automated Severity Classification of Dysarthric Speech in a Multilingual Context [1.4721615285883431]
運動性発声障害であるDysarthriaは、声質、発音、韻律に深刻な影響を与え、発話の可知性が低下し、生活の質が低下する。
本論文は,英語,韓国語,タミル語という3つの言語を解析し,多言語性難聴度分類法を提案する。
論文 参考訳(メタデータ) (2024-12-01T00:05:00Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Voice EHR: Introducing Multimodal Audio Data for Health [3.8090294667599927]
既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存している。
本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
論文 参考訳(メタデータ) (2024-04-02T04:07:22Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。