論文の概要: Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding
- arxiv url: http://arxiv.org/abs/2512.04847v1
- Date: Thu, 04 Dec 2025 14:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.220079
- Title: Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding
- Title(参考訳): セマンティック教師としての言語モデル:医療オーディオ理解のための訓練後アライメント
- Authors: Tsai-Ning Wang, Lin-Lin Chen, Neil Zeghidour, Aaqib Saeed,
- Abstract要約: 事前訓練された音響モデルは、聴力音の音響パターンを検出するのに優れるが、臨床的意義を把握できないことが多い。
AcuLaは、医療用言語モデルと整合することで、任意のオーディオエンコーダに意味理解を組み込むフレームワークである。
我々の研究は、このオーディオ言語アライメントが純粋に音響モデルから臨床的に認識される診断ツールに変換することを実証している。
- 参考スコア(独自算出の注目度): 15.79973026677169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained audio models excel at detecting acoustic patterns in auscultation sounds but often fail to grasp their clinical significance, limiting their use and performance in diagnostic tasks. To bridge this gap, we introduce AcuLa (Audio-Clinical Understanding via Language Alignment), a lightweight post-training framework that instills semantic understanding into any audio encoder by aligning it with a medical language model, which acts as a "semantic teacher." To enable alignment at scale, we construct a large-scale dataset by leveraging off-the-shelf large language models to translate the rich, structured metadata accompanying existing audio recordings into coherent clinical reports. Our alignment strategy combines a representation-level contrastive objective with a self-supervised modeling, ensuring that the model learns clinical semantics while preserving fine-grained temporal cues. AcuLa achieves state-of-the-art results across 18 diverse cardio-respiratory tasks from 10 different datasets, improving the mean AUROC on classification benchmarks from 0.68 to 0.79 and, on the most challenging COVID-19 cough detection task, boosting the AUROC from 0.55 to 0.89. Our work demonstrates that this audio-language alignment transforms purely acoustic models into clinically-aware diagnostic tools, establishing a novel paradigm for enhancing physiological understanding in audio-based health monitoring.
- Abstract(参考訳): 事前訓練されたオーディオモデルは、聴力音の音響パターンを検出するのに優れているが、臨床上の意義を把握できず、診断タスクにおける使用と性能を制限していることが多い。
このギャップを埋めるために、AcuLa(Audio-Clinical Understanding via Language Alignment)という軽量な後学習フレームワークを導入する。
大規模なアライメントを実現するため,既存のオーディオ録音に伴うリッチで構造化されたメタデータをコヒーレントな臨床報告に翻訳するために,市販の大規模言語モデルを活用した大規模データセットを構築した。
我々のアライメント戦略は、表現レベルのコントラスト目標と自己教師付きモデリングを組み合わせることで、詳細な時間的手がかりを維持しながら、モデルが臨床的意味学を学習することを保証する。
AcuLaは、10の異なるデータセットから18の多様な心呼吸タスクにまたがる最先端の結果を達成し、分類ベンチマークの平均AUROCを0.68から0.79に改善し、最も困難な新型コロナウイルス検出タスクにおいてAUROCを0.55から0.89に引き上げる。
本研究は、この音声言語アライメントが、純粋に音響モデルから臨床的に認識された診断ツールに変換し、オーディオベースの健康モニタリングにおける生理的理解を高めるための新しいパラダイムを確立することを実証する。
関連論文リスト
- From Fuzzy Speech to Medical Insight: Benchmarking LLMs on Noisy Patient Narratives [40.12543056558646]
本稿では, 言語ノイズ, ファジィ言語, 在人用語のレベルの違いを特徴とする, 患者自己記述のシミュレートを目的とした新しいデータセットを提案する。
本データセットは, 多様な実世界の報告スタイルを反映する, コミュニケーションの明瞭度の範囲にまたがる, 地中真実診断を付加した, 臨床的に一貫したシナリオから構成される。
本研究では,NDB(Nuisy Diagnostic Benchmark)を作成した。NDB(Nuisy Diagnostic Benchmark)は,ストレステスト用に設計され,現実的な言語条件下での大規模言語モデル(LLM)の診断能力を比較する。
論文 参考訳(メタデータ) (2025-09-15T11:34:46Z) - Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions [14.745982411183766]
プライバシを意識したマルチタスク学習フレームワークであるMARVELを,9つの異なる神経・呼吸・音声障害を同時に検出する。
当社のフレームワークは, シングルモーダルベースラインを5~19%上回り, 9タスクのうち7タスクにおいて最先端の自己監督モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-28T12:37:25Z) - Audio-Vision Contrastive Learning for Phonological Class Recognition [6.476789653980653]
実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせて3つの重要な調音次元を分類する多モードディープラーニングフレームワークを提案する。
USC-TIMITデータセットによる実験結果から,我々のコントラスト学習に基づくアプローチが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-07-23T16:44:22Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。