論文の概要: RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering
- arxiv url: http://arxiv.org/abs/2603.06542v1
- Date: Fri, 06 Mar 2026 18:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.391721
- Title: RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering
- Title(参考訳): RAMoEA-QA:ロバストな呼吸聴覚質問応答のための階層的特殊化
- Authors: Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia Mascolo,
- Abstract要約: 本稿では,呼吸音声質問応答のための階層的経路生成モデルであるRAMoEA-QAを紹介する。
複数の質問タイプを統一し、単一のマルチモーダルシステム内で離散的および連続的ターゲットの両方をサポートする。
パラメータのオーバーヘッドを最小限に抑えて、強いベースラインとルーティングアブリケーションを一貫して上回る。
- 参考スコア(独自算出の注目度): 17.905364553833724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational generative AI is rapidly entering healthcare, where general-purpose models must integrate heterogeneous patient signals and support diverse interaction styles while producing clinically meaningful outputs. In respiratory care, non-invasive audio, such as recordings captured via mobile microphones, enables scalable screening and longitudinal monitoring, but the heterogeneity challenge is particularly acute: recordings vary widely across devices, environments, and acquisition protocols, and questions span multiple intents and question formats. Existing biomedical audio-language QA systems are typically monolithic, without any specialization mechanisms for tackling diverse respiratory corpora and query intents. They are also only validated in limited settings, leaving it unclear how reliably they handle the shifts encountered in real-world settings. To address these limitations, we introduce RAMoEA-QA, a hierarchically routed generative model for respiratory audio question answering that unifies multiple question types and supports both discrete and continuous targets within a single multimodal system. RAMoEA-QA applies two-stage conditional specialization: an Audio Mixture-of-Experts routes each recording to a suitable pre-trained audio encoder, and a Language Mixture-of-Adapters selects a LoRA adapter on a shared frozen LLM to match the query intent and answer format. By specializing both acoustic representations and generation behaviour per example, RAMoEA-QA consistently outperforms strong baselines and routing ablations with minimal parameter overhead, improving in-domain test accuracy to 0.72 (vs. 0.61 and 0.67 for state-of-the-art baselines) and exhibiting the strongest generalization for diagnosis under domain, modality, and task shifts.
- Abstract(参考訳): 会話生成AIは急速にヘルスケアに入り、汎用モデルは異種患者信号を統合し、様々な相互作用スタイルをサポートしながら臨床的に意味のあるアウトプットを生成する必要がある。
呼吸器ケアでは、モバイルマイクを介してキャプチャされた録音のような非侵襲的なオーディオは、スケーラブルなスクリーニングと縦方向の監視を可能にするが、不均一性の問題は特に深刻である。
既存のバイオメディカルオーディオ言語QAシステムは通常モノリシックであり、多様な呼吸コーパスやクエリインテントに対処するための特別なメカニズムがない。
また、制限された設定でのみ検証されるため、実際の設定で遭遇したシフトを確実に扱えるかははっきりしない。
これらの制約に対処するために,複数質問型を統一し,単一マルチモーダルシステム内の離散的および連続的ターゲットの両方をサポートする呼吸性音声質問応答のための階層的経路生成モデルであるRAMoEA-QAを導入する。
RAMoEA-QAは2段階の条件付き特殊化を施しており、Audio Mixture-of-Expertsは各録音を適切な訓練済みオーディオエンコーダにルーティングし、Language Mixture-of-Adaptersは共有冷凍LLM上のLoRAアダプタを選択してクエリインテントと応答フォーマットにマッチさせる。
RAMoEA-QAは、例えば音響表現と生成動作の両方を専門にすることにより、強いベースラインとルーティングの最適化を最小限のパラメータオーバヘッドで一貫して上回り、ドメイン内テストの精度を0.72(最先端ベースラインでは0.61と0.67)に改善し、ドメイン、モダリティ、タスクシフトの下での診断に対する最強の一般化を示す。
関連論文リスト
- Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - RA-QA: Towards Respiratory Audio-based Health Question Answering [17.905364553833724]
呼吸器疾患は世界的な死因の1つであり、早期かつアクセス可能なスクリーニング方法の緊急の必要性を強調している。
自然言語を使ったリアルタイムのコンサルティングで対話できるインテリジェントシステムの欠如は、依然として重要なギャップである。
第1回呼吸音響質問応答データセットを構築するため,11種類の呼吸オーディオデータセットから収集したデータをキュレートし,調和させた。
論文 参考訳(メタデータ) (2026-02-04T13:25:47Z) - Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals [0.49581497240446293]
本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間、特徴レベルの説明を生成する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-11-29T17:15:58Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。