論文の概要: Patient-Level Multimodal Question Answering from Multi-Site Auscultation Recordings
- arxiv url: http://arxiv.org/abs/2603.13362v1
- Date: Mon, 09 Mar 2026 10:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.124651
- Title: Patient-Level Multimodal Question Answering from Multi-Site Auscultation Recordings
- Title(参考訳): マルチサイト聴取記録からの患者レベルマルチモーダル質問応答
- Authors: Fan Wu, Tsai-Ning Wang, Nicolas Zumarraga, Ning Wang, Markus Kreft, Kevin O'Sullivan, Elgar Fleisch, Oliver Aalami, Paul Schmiedmayer, Robert Jakob, Patrick Langer,
- Abstract要約: オースカルテーションは重要な診断ツールであるが、その実用性は主観的解釈によって制限されることが多い。
本稿では,多地点の聴取記録を,ゲート型クロスアテンションにより凍結したLarge Language Model (LLM) 埋め込み空間と直接整合するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.307923185691307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auscultation is a vital diagnostic tool, yet its utility is often limited by subjective interpretation. While general-purpose Audio-Language Models (ALMs) excel in general domains, they struggle with the nuances of physiological signals. We propose a framework that aligns multi-site auscultation recordings directly with a frozen Large Language Model (LLM) embedding space via gated cross-attention. By leveraging the LLM's latent world knowledge, our approach moves beyond isolated classification toward holistic, patient-level assessment. On the CaReSound benchmark, our model achieves a state-of-the-art 0.865 F1-macro and 0.952 BERTScore. We demonstrate that lightweight, domain-specific encoders rival large-scale ALMs and that multi-site aggregation provides spatial redundancy that mitigates temporal truncation. This alignment of medical acoustics with text foundations offers a scalable path for bridging signal processing and clinical assessment.
- Abstract(参考訳): オースカルテーションは重要な診断ツールであるが、その実用性は主観的解釈によって制限されることが多い。
汎用オーディオ・ランゲージ・モデル(ALM)は一般領域において優れているが、生理的信号のニュアンスに苦慮している。
本稿では,多地点の聴取記録を,ゲート型クロスアテンションにより凍結したLarge Language Model (LLM) 埋め込み空間と直接整合するフレームワークを提案する。
LLMの潜在的世界知識を活用することで、我々のアプローチは、隔離された分類を超えて、総合的、患者レベルの評価へと移行する。
CaReSound ベンチマークでは,最先端の 0.865 F1-macro と 0.952 BERTScore が得られた。
我々は,大規模ALMと競合する軽量なドメイン固有エンコーダと,時間的切り離しを緩和する空間的冗長性を提供する多地点アグリゲーションを実証した。
この医療音響とテキスト基礎の整合性は、ブリッジング信号処理と臨床評価のためのスケーラブルな経路を提供する。
関連論文リスト
- OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis [53.01523944168442]
臨床解釈はスライス駆動の局所特徴と体積駆動の空間表現の両方に依存している。
既存のLVLM(Large Vision-Language Models)は、CTスライスとボリューム理解で断片化されている。
我々は,CTシナリオのための強力な統合スライスボリュームLVLMであるOmniCTを提案する。
論文 参考訳(メタデータ) (2026-02-18T00:42:41Z) - Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling [27.224093715611534]
本稿では,音声から医療状況を検出するための新しい枠組みを提案する。
エンドツーエンドアプローチは,多粒度特徴を動的に集約し,高品質な擬似ラベルを生成する。
この研究は、医学的音声分析における弱い極端の監督から学ぶための原則的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-08T09:10:16Z) - Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals [0.49581497240446293]
本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間、特徴レベルの説明を生成する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-11-29T17:15:58Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation [4.286815457787583]
Causal-SAM-LLMはLarge Language Models(LLM)を因果推論の役割に高める新しいフレームワークである。
第一に、Linguistic Adrial Disentanglement (LAD)は視覚言語モデルを用いて、融合した画像スタイルのリッチでテキストによる記述を生成する。
第2に、Test-Time Causal Intervention (TCI)は、LLMが臨床者の自然言語コマンドを解釈し、セグメント化デコーダの特徴をリアルタイムで変調する対話的なメカニズムを提供する。
論文 参考訳(メタデータ) (2025-07-04T13:52:16Z) - End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。