論文の概要: CaReAQA: A Cardiac and Respiratory Audio Question Answering Model for Open-Ended Diagnostic Reasoning
- arxiv url: http://arxiv.org/abs/2505.01199v1
- Date: Fri, 02 May 2025 11:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.007571
- Title: CaReAQA: A Cardiac and Respiratory Audio Question Answering Model for Open-Ended Diagnostic Reasoning
- Title(参考訳): CaReAQA:オープンエンド診断推論のための心・呼吸音響質問応答モデル
- Authors: Tsai-Ning Wang, Lin-Lin Chen, Neil Zeghidour, Aaqib Saeed,
- Abstract要約: CaReAQAは、基礎的なオーディオモデルと大きな言語モデルの推論機能を統合するオーディオ言語モデルである。
メタデータを付加したアノテートされた医療オーディオ記録のベンチマークデータセットであるCaReSoundを紹介する。
評価の結果、CaReAQAは、オープンエンド診断推論タスクにおいて86.2%の精度を達成していることがわかった。
- 参考スコア(独自算出の注目度): 17.462121203082006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical audio signals, such as heart and lung sounds, play a crucial role in clinical diagnosis. However, analyzing these signals remains challenging: traditional methods rely on handcrafted features or supervised deep learning models that demand extensive labeled datasets, limiting their scalability and applicability. To address these issues, we propose CaReAQA, an audio-language model that integrates a foundation audio model with the reasoning capabilities of large language models, enabling clinically relevant, open-ended diagnostic responses. Alongside CaReAQA, we introduce CaReSound, a benchmark dataset of annotated medical audio recordings enriched with metadata and paired question-answer examples, intended to drive progress in diagnostic reasoning research. Evaluation results show that CaReAQA achieves 86.2% accuracy on open-ended diagnostic reasoning tasks, outperforming baseline models. It also generalizes well to closed-ended classification tasks, achieving an average accuracy of 56.9% on unseen datasets. Our findings show how audio-language integration and reasoning advances medical diagnostics, enabling efficient AI systems for clinical decision support.
- Abstract(参考訳): 心臓や肺の音などの医療オーディオ信号は臨床診断において重要な役割を担っている。
従来の手法は手作りの機能や、広範囲のラベル付きデータセットを必要とする教師付きディープラーニングモデルに依存しており、スケーラビリティと適用性を制限する。
これらの課題に対処するため,我々は,基礎となる音声モデルと大規模言語モデルの推論機能を統合し,臨床的に関連性のあるオープンエンド診断応答を可能にする音声モデルCaReAQAを提案する。
CaReAQAと並行して,メタデータに富んだアノテートされた医療オーディオ記録のベンチマークデータセットであるCaReSoundを紹介する。
評価の結果、CaReAQAは、オープンエンド診断推論タスクにおいて86.2%の精度を達成し、ベースラインモデルを上回る結果が得られた。
また、クローズドエンドな分類タスクをうまく一般化し、目に見えないデータセットの平均精度は56.9%に達する。
以上の結果から, 音声言語統合と推論が医療診断の進歩に寄与し, 臨床診断支援に効率的なAIシステムを実現することが示唆された。
関連論文リスト
- IP-CRR: Information Pursuit for Interpretable Classification of Chest Radiology Reports [31.359504909372884]
本稿では,放射線学レポートの分類のための解釈可能なフレームワークを提案する。
キーとなる考え方は、大量のレポートから最も情報性の高いクエリの集合を抽出し、これらのクエリとその対応する回答を使用して診断を予測することである。
提案手法の有効性を示すMIMIC-CXRデータセットの実験を行った。
論文 参考訳(メタデータ) (2025-04-30T21:20:05Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Voice EHR: Introducing Multimodal Audio Data for Health [3.8090294667599927]
既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存している。
本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
論文 参考訳(メタデータ) (2024-04-02T04:07:22Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Query-Focused EHR Summarization to Aid Imaging Diagnosis [22.21438906817433]
本稿では,患者記録から関連するテキストスニペットを抽出し,大まかな症例要約を提供するモデルを提案し,評価する。
我々は,「未来」記録で観察される国際疾患分類(ICD)コード群を,「下流」診断のためのうるさいプロキシとして使用した。
我々は、ボストンのブリガム・アンド・ウーマンズ病院とMIMIC-IIIのEHRデータに基づいて、このモデルのバリエーションを訓練し、評価する。
論文 参考訳(メタデータ) (2020-04-09T16:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。