論文の概要: Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis
- arxiv url: http://arxiv.org/abs/2602.15909v1
- Date: Mon, 16 Feb 2026 14:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.386251
- Title: Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis
- Title(参考訳): Resp-Agent:マルチモーダル呼吸音発生と疾患診断のためのエージェントベースシステム
- Authors: Pengfei Zhang, Tianxin Xie, Minghao Yang, Li Liu,
- Abstract要約: Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
- 参考スコア(独自算出の注目度): 14.922065513695294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-based respiratory auscultation is currently hindered by two fundamental challenges: (i) inherent information loss, as converting signals into spectrograms discards transient acoustic events and clinical context; (ii) limited data availability, exacerbated by severe class imbalance. To bridge these gaps, we present Resp-Agent, an autonomous multimodal system orchestrated by a novel Active Adversarial Curriculum Agent (Thinker-A$^2$CA). Unlike static pipelines, Thinker-A$^2$CA serves as a central controller that actively identifies diagnostic weaknesses and schedules targeted synthesis in a closed loop. To address the representation gap, we introduce a Modality-Weaving Diagnoser that weaves EHR data with audio tokens via Strategic Global Attention and sparse audio anchors, capturing both long-range clinical context and millisecond-level transients. To address the data gap, we design a Flow Matching Generator that adapts a text-only Large Language Model (LLM) via modality injection, decoupling pathological content from acoustic style to synthesize hard-to-diagnose samples. As a foundation for these efforts, we introduce Resp-229k, a benchmark corpus of 229k recordings paired with LLM-distilled clinical narratives. Extensive experiments demonstrate that Resp-Agent consistently outperforms prior approaches across diverse evaluation settings, improving diagnostic robustness under data scarcity and long-tailed class imbalance. Our code and data are available at https://github.com/zpforlove/Resp-Agent.
- Abstract(参考訳): 深層学習に基づく呼吸調節は、現在2つの根本的な課題によって妨げられている。
一 信号の分光図への変換は、過渡的な音響事象及び臨床状況を捨てる。
(ii) 厳格なクラス不均衡によって悪化するデータ可用性の制限。
これらのギャップを埋めるために、我々は、新しい「アクティブ・アドバーサリアル・カリキュラム・エージェント」(Thinker-A$^2$CA)によって編成された自律型マルチモーダル・システムであるResp-Agentを紹介する。
静的パイプラインとは異なり、Thinker-A$^2$CAは、クローズドループにおける診断の弱点とターゲット合成のスケジュールを積極的に識別する中心的なコントローラとして機能する。
この表現ギャップに対処するため,EHRデータをストラテジック・グローバル・アテンションとスパース・アンカーを介して織り込んだModality-Weaving Diagnoserを導入し,長距離臨床とミリ秒レベルのトランジェントの両方を捉える。
データギャップに対処するため,テキストのみのLarge Language Model (LLM) を適用したフローマッチングジェネレータを設計した。
これらの取り組みの基盤として,LLMを蒸留した臨床物語と組み合わせた229kレコードのベンチマークコーパスであるResp-229kを紹介する。
広範な実験により、Resp-Agentはさまざまな評価設定で先行アプローチを一貫して上回り、データの不足下での診断の堅牢性を改善し、長い尾のクラス不均衡を改善した。
私たちのコードとデータはhttps://github.com/zpforlove/Resp-Agent.comで公開されています。
関連論文リスト
- Digital FAST: An AI-Driven Multimodal Framework for Rapid and Early Stroke Screening [0.7136933021609076]
本研究では,F.A.S.T.アセスメントで収集したデータをもとに,高速かつ非侵襲的な2次脳卒中自動スクリーニングのための多モード深層学習フレームワークを提案する。
提案手法は, 表情, 音声信号, 上体動作からの相補的な情報を統合し, 診断の堅牢性を高める。
論文 参考訳(メタデータ) (2026-01-17T03:35:39Z) - Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling [27.224093715611534]
本稿では,音声から医療状況を検出するための新しい枠組みを提案する。
エンドツーエンドアプローチは,多粒度特徴を動的に集約し,高品質な擬似ラベルを生成する。
この研究は、医学的音声分析における弱い極端の監督から学ぶための原則的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-08T09:10:16Z) - Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals [0.49581497240446293]
本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間、特徴レベルの説明を生成する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-11-29T17:15:58Z) - Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification [5.59515535487396]
深層学習モデルは、医用画像解析において顕著な成功を収めてきたが、大規模かつ精巧に注釈付けされたデータセットの要求に制約されている。
ゼロトレーニングタスク特化モデル合成(ZS-TMS)という新しいパラダイムを提案する。
既存のモデルに適応したり、新しいモデルをトレーニングする代わりに、大規模で事前訓練された生成エンジンを活用して、タスク固有の分類器のパラメータ集合全体を直接的に合成する。
論文 参考訳(メタデータ) (2025-11-18T03:12:01Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Informed Deep Abstaining Classifier: Investigating noise-robust training for diagnostic decision support systems [0.7497462432118391]
ディープラーニングは、画像に基づく診断決定支援システムの最適化に使用することができる。
Informed Deep Abstaining (IDAC) システムは、トレーニング中にノイズレベルの推定を組み込むことで、ノイズロスのDeep Abstaining (DAC) 損失を増大させる。
これらの知見は、テキストベースのトランスフォーマーを用いて、大学病院ボンの臨床システムからラベルを抽出した、社内ノイズデータセットで再現される。
論文 参考訳(メタデータ) (2024-10-28T13:36:57Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。