論文の概要: RA-QA: Towards Respiratory Audio-based Health Question Answering
- arxiv url: http://arxiv.org/abs/2602.18452v1
- Date: Wed, 04 Feb 2026 13:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.573612
- Title: RA-QA: Towards Respiratory Audio-based Health Question Answering
- Title(参考訳): RA-QA: 呼吸型オーディオによる健康問題に対する回答に向けて
- Authors: Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia Mascolo,
- Abstract要約: 呼吸器疾患は世界的な死因の1つであり、早期かつアクセス可能なスクリーニング方法の緊急の必要性を強調している。
自然言語を使ったリアルタイムのコンサルティングで対話できるインテリジェントシステムの欠如は、依然として重要なギャップである。
第1回呼吸音響質問応答データセットを構築するため,11種類の呼吸オーディオデータセットから収集したデータをキュレートし,調和させた。
- 参考スコア(独自算出の注目度): 17.905364553833724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Respiratory diseases are a leading cause of death globally, highlighting the urgent need for early and accessible screening methods. While some lung auscultation analysis has been automated and machine learning audio based models are able to predict respiratory pathologies, there remains a critical gap: the lack of intelligent systems that can interact in real-time consultations using natural language. Unlike other clinical domains, such as electronic health records, radiological images, and biosignals, where numerous question-answering (QA) datasets and models have been established, audio-based modalities remain notably underdeveloped. We curated and harmonized data from 11 diverse respiratory audio datasets to construct the first Respiratory Audio Question Answering (RA-QA) dataset. As the first multimodal QA resource of its kind focused specifically on respiratory health, RA-QA bridges clinical audio and natural language in a structured, scalable format. This new data resource contains about 7.5 million QA pairs spanning more than 60 attributes and three question types: single verification, multiple choice, and open-ended questions. Building upon this dataset, we introduce a novel benchmark that compares audio-text generation models with traditional audio classifiers to evaluate their respective performance.\\Our experiments reveal interesting performance variations across different attributes and question types, establishing a baseline and paving the way for more advanced architectures that could further improve the performance. By bridging machine learning with real-world clinical dialogue, our work opens the door to the development of more interactive, intelligent, and accessible diagnostic tools in respiratory healthcare.
- Abstract(参考訳): 呼吸器疾患は世界的な死因の1つであり、早期かつアクセス可能なスクリーニング方法の緊急の必要性を強調している。
肺の聴診分析は自動化されており、機械学習オーディオベースのモデルでは呼吸病理を予測できるが、依然として重大なギャップが残っている。
電子健康記録、放射線画像、生体信号などの他の臨床領域とは異なり、多くのQAデータセットやモデルが確立されているが、オーディオベースのモダリティは明らかに未発達である。
第1回呼吸音響質問応答データセット(RA-QA)を構築するため,11種類の呼吸オーディオデータセットから収集したデータをキュレートし,調和させた。
RA-QAは、呼吸器の健康に焦点を当てた最初のマルチモーダルQAリソースとして、構造化されたスケーラブルなフォーマットで臨床オーディオと自然言語を橋渡しする。
この新しいデータリソースには、60以上の属性にまたがる約750万のQAペアと、3つの質問タイプが含まれている。
このデータセットをベースとして,音声テキスト生成モデルと従来の音声分類器を比較し,それぞれの性能を評価する新しいベンチマークを提案する。
実験では、さまざまな属性や質問タイプにまたがる興味深いパフォーマンスのバリエーションを明らかにし、ベースラインを確立し、パフォーマンスをさらに向上するより高度なアーキテクチャへの道を開いた。
実際の臨床対話で機械学習をブリッジすることで、我々の研究は、呼吸医療におけるよりインタラクティブでインテリジェントでアクセシブルな診断ツールの開発への扉を開く。
関連論文リスト
- A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - CaReAQA: A Cardiac and Respiratory Audio Question Answering Model for Open-Ended Diagnostic Reasoning [17.462121203082006]
CaReAQAは、基礎的なオーディオモデルと大きな言語モデルの推論機能を統合するオーディオ言語モデルである。
メタデータを付加したアノテートされた医療オーディオ記録のベンチマークデータセットであるCaReSoundを紹介する。
評価の結果、CaReAQAは、オープンエンド診断推論タスクにおいて86.2%の精度を達成していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T11:42:46Z) - RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction [20.974460332254544]
RespLLMは、呼吸健康予測のためのテキストと音声の表現を統一する新しいフレームワークである。
我々の研究は、異種データの知覚、聴取、理解が可能なマルチモーダルモデルの基礎を築いた。
論文 参考訳(メタデータ) (2024-10-07T17:06:11Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking [27.708473070563013]
呼吸器オーディオは幅広い医療応用の予測力を持っているが、現在はまだ探索されていない。
OPERA(OPEn Respiratory Acoustic foundation model Pretraining and benchmarking system)を紹介する。
論文 参考訳(メタデータ) (2024-06-23T16:04:26Z) - Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases [5.810320353233697]
本稿では,呼吸音の認識に適した大規模モデルであるReneを紹介する。
我々の革新的なアプローチは、事前訓練された音声認識モデルを用いて呼吸音を処理している。
我々は,Reneアーキテクチャを用いた実時間呼吸音識別システムを開発した。
論文 参考訳(メタデータ) (2024-05-13T03:00:28Z) - Voice EHR: Introducing Multimodal Audio Data for Health [3.8090294667599927]
既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存している。
本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
論文 参考訳(メタデータ) (2024-04-02T04:07:22Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。