Fugu-MT 論文翻訳(概要): StethoLM: Audio Language Model for Cardiopulmonary Analysis Across Clinical Tasks

論文の概要: StethoLM: Audio Language Model for Cardiopulmonary Analysis Across Clinical Tasks

arxiv url: http://arxiv.org/abs/2603.00355v1
Date: Fri, 27 Feb 2026 22:39:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.153751
Title: StethoLM: Audio Language Model for Cardiopulmonary Analysis Across Clinical Tasks
Title（参考訳）: StethoLM:臨床における心肺分析のためのオーディオ言語モデル
Authors: Yishan Wang, Tsai-Ning Wang, Mathias Funk, Aaqib Saeed,
Abstract要約: 心肺蘇生に特化した最初の音声言語モデルであるStethoLMについて紹介する。オースカルテーション分析の全スペクトルにわたって、インストラクション駆動の臨床タスクを実行することができる。本研究は,臨床教育における指導追従型AIシステムの基礎を確立するものである。
参考スコア（独自算出の注目度）: 14.936669090239548
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Listening to heart and lung sounds - auscultation - is one of the first and most fundamental steps in a clinical examination. Despite being fast and non-invasive, it demands years of experience to interpret subtle audio cues. Recent deep learning methods have made progress in automating cardiopulmonary sound analysis, yet most are restricted to simple classification and offer little clinical interpretability or decision support. We present StethoLM, the first audio-language model specialized for cardiopulmonary auscultation, capable of performing instruction-driven clinical tasks across the full spectrum of auscultation analysis. StethoLM integrates audio encoding with a medical language model backbone and is trained on StethoBench, a comprehensive benchmark comprising 77,027 instruction-response pairs synthesized from 16,125 labeled cardiopulmonary recordings spanning seven clinical task categories: binary classification, detection, reporting, reasoning, differential diagnosis, comparison, and location-based analysis. Through multi-stage training that combines supervised fine-tuning and direct preference optimization, StethoLM achieves substantial gains in performance and robustness on out-of-distribution data. Our work establishes a foundation for instruction-following AI systems in clinical auscultation.
Abstract（参考訳）: 心臓と肺の音を聴くことは、臨床検査における最初の、そして最も基本的なステップの1つである。高速で非侵襲的だが、微妙な音質を解釈するためには長年の経験が必要だ。近年の深層学習法は, 心肺音解析の自動化に進歩しているが, ほとんどは単純な分類に限られており, 臨床解釈可能性や意思決定支援がほとんどない。本稿では,心肺蘇生に特化した最初の音声言語モデルであるStethoLMについて紹介する。 StethoLMは、医療言語モデルのバックボーンとオーディオエンコーディングを統合し、StethoBenchでトレーニングされている。これは、バイナリ分類、検出、報告、推論、差分診断、比較、位置ベース分析という7つの臨床タスクカテゴリにまたがる16,125のラベル付き心肺記録から合成された77,027の命令応答対からなる包括的なベンチマークである。教師付き微調整と直接選好最適化を組み合わせたマルチステージトレーニングにより、StethoLMは、アウト・オブ・ディストリビューションデータの性能とロバスト性を大幅に向上させる。本研究は,臨床教育における指導追従型AIシステムの基礎を確立するものである。

関連論文リスト

ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文参考訳（メタデータ） (2025-12-29T12:58:58Z)
Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding [15.79973026677169]
事前訓練された音響モデルは、聴力音の音響パターンを検出するのに優れるが、臨床的意義を把握できないことが多い。 AcuLaは、医療用言語モデルと整合することで、任意のオーディオエンコーダに意味理解を組み込むフレームワークである。我々の研究は、このオーディオ言語アライメントが純粋に音響モデルから臨床的に認識される診断ツールに変換することを実証している。
論文参考訳（メタデータ） (2025-12-04T14:30:58Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
CaReAQA: A Cardiac and Respiratory Audio Question Answering Model for Open-Ended Diagnostic Reasoning [17.462121203082006]
CaReAQAは、基礎的なオーディオモデルと大きな言語モデルの推論機能を統合するオーディオ言語モデルである。メタデータを付加したアノテートされた医療オーディオ記録のベンチマークデータセットであるCaReSoundを紹介する。評価の結果、CaReAQAは、オープンエンド診断推論タスクにおいて86.2%の精度を達成していることがわかった。
論文参考訳（メタデータ） (2025-05-02T11:42:46Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文参考訳（メタデータ） (2023-10-25T08:55:48Z)
Deep CardioSound: An Ensembled Deep Learning Model for Heart Sound MultiLabelling [5.830356769562823]
本研究は,異なるラベル群からのラベルで心臓の音を自動アノテートする深層多ラベル学習モデルを提案する。実験の結果,提案手法はホールドアウトデータに対して優れた性能を示した。
論文参考訳（メタデータ） (2022-04-15T11:13:11Z)
Assessing clinical utility of Machine Learning and Artificial Intelligence approaches to analyze speech recordings in Multiple Sclerosis: A Pilot Study [1.6582693134062305]
本研究の目的は, 音声記録を用いた多発性硬化症の診断, バイオマーカー抽出, 進展モニタリングを支援するための機械学習と深層学習/AIアプローチの臨床的有用性を検討することである。ランダムフォレストモデルは、バリデーションデータセットの精度0.82、トレーニングデータセットの5k倍サイクルの面積0.76の精度を達成した。
論文参考訳（メタデータ） (2021-09-20T21:02:37Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)
Noise-Resilient Automatic Interpretation of Holter ECG Recordings [67.59562181136491]
本稿では,ホルター記録を雑音に頑健に解析する3段階プロセスを提案する。第1段階は、心拍位置を検出する勾配デコーダアーキテクチャを備えたセグメンテーションニューラルネットワーク(NN)である。第2段階は、心拍を幅または幅に分類する分類NNである。第3のステージは、NN機能の上に、患者対応機能を組み込んだ強化決定木(GBDT)である。
論文参考訳（メタデータ） (2020-11-17T16:15:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。