論文の概要: Au-M-ol: A Unified Model for Medical Audio and Language Understanding
- arxiv url: http://arxiv.org/abs/2604.23284v1
- Date: Sat, 25 Apr 2026 12:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.252075
- Title: Au-M-ol: A Unified Model for Medical Audio and Language Understanding
- Title(参考訳): Au-M-ol:医療オーディオと言語理解のための統一モデル
- Authors: Meizhu Liu, Nistha Mitra, Paul Li, Amine Abdaoui, Adam Ledyard, Tao Sheng,
- Abstract要約: Au-M-olは、Large Language Models (LLM)を拡張してオーディオ処理を行う新しいアーキテクチャである。
自動音声認識(ASR)などの臨床関連タスクの性能向上を目的としている。
実験では、Au-M-olは医療転写タスクの最先端ベースラインと比較して単語誤り率(WER)を56%削減する。
- 参考スコア(独自算出の注目度): 0.9236074230806578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present Au-M-ol, a novel multimodal architecture that extends Large Language Models (LLMs) with audio processing. It is designed to improve performance on clinically relevant tasks such as Automatic Speech Recognition (ASR). Au-M-ol has three main components: (1) an audio encoder that extracts rich acoustic features from medical speech, (2) an adaptation layer that maps audio features into the LLM input space, and (3) a pretrained LLM that performs transcription and clinical language understanding. This design allows the model to interpret spoken medical content directly, improving both accuracy and robustness. In experiments, Au-M-ol reduces Word Error Rate (WER) by 56\% compared to state-of-the-art baselines on medical transcription tasks. The model also performs well in challenging conditions, including noisy environments, domain-specific terminology, and speaker variability. These results suggest that Au-M-ol is a strong candidate for real-world clinical applications, where reliable and context-aware audio understanding is essential.
- Abstract(参考訳): 本研究では,Large Language Models (LLM) を拡張した新しいマルチモーダルアーキテクチャである Au-M-ol を提案する。
自動音声認識(ASR)などの臨床関連タスクの性能向上を目的としている。
Au-M-ol は,(1) 医療音声から豊かな音響特徴を抽出する音声エンコーダ,(2) 音声特徴を LLM 入力空間にマッピングする適応層,(3) 書き起こしおよび臨床言語理解を行う事前訓練 LLM の3つの構成要素を有する。
この設計により、モデルは音声医療コンテンツを直接解釈することができ、精度と堅牢性の両方を改善することができる。
実験では、Au-M-olは医療転写タスクの最先端ベースラインと比較して単語誤り率(WER)を565%削減する。
モデルは、ノイズの多い環境、ドメイン固有の用語、話者の変動など、困難な状況でもうまく機能する。
以上の結果から,Au-M-olは信頼性と文脈を考慮した音声理解が不可欠である実世界の臨床応用の有力候補であることが示唆された。
関連論文リスト
- Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding [15.79973026677169]
事前訓練された音響モデルは、聴力音の音響パターンを検出するのに優れるが、臨床的意義を把握できないことが多い。
AcuLaは、医療用言語モデルと整合することで、任意のオーディオエンコーダに意味理解を組み込むフレームワークである。
我々の研究は、このオーディオ言語アライメントが純粋に音響モデルから臨床的に認識される診断ツールに変換することを実証している。
論文 参考訳(メタデータ) (2025-12-04T14:30:58Z) - fMRI-LM: Towards a Universal Foundation Model for Language-Aligned fMRI Understanding [30.02799445727658]
機能的MRI(fMRI)と言語を3段階の枠組みでブリッジする基礎モデルであるfMRI-LMを提案する。
ステージ1では、fMRIを言語一貫性空間に埋め込まれた離散トークンにマッピングする神経トークン化器を学習する。
ステージ2では、事前訓練されたLLMがfMRIトークンとテキストを共同でモデル化し、脳の活動が時間的に予測され言語的に記述されるシーケンスとして扱われる。
ステージ3では、ハイレベルなセマンティック理解を備えたfMRI-LMを実現するために、マルチタスク、マルチパラダイムのチューニングを行う。
論文 参考訳(メタデータ) (2025-11-24T20:26:59Z) - Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations [18.74784108693223]
トランスフォーマーに基づく言語モデル(SLM)は、音声認識と理解を大幅に改善した。
SLMが如何に構文的・概念的特徴をエンコードするかはいまだ不明である。
本研究は,SLMにおける文脈的構文的特徴と意味的特徴の存在を体系的に評価した最初のものである。
論文 参考訳(メタデータ) (2025-09-19T06:29:33Z) - Audio-Vision Contrastive Learning for Phonological Class Recognition [6.476789653980653]
実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせて3つの重要な調音次元を分類する多モードディープラーニングフレームワークを提案する。
USC-TIMITデータセットによる実験結果から,我々のコントラスト学習に基づくアプローチが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-07-23T16:44:22Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Benchmarking Automatic Speech Recognition coupled LLM Modules for Medical Diagnostics [0.0]
本報告は、医療電話記録に微調整されたモデルを分析する、私のセルフプロジェクトとして機能する。
音声書き起こしのための音声認識(ASR)と文脈認識のための大規模言語モデル(LLM)を解析する。
論文 参考訳(メタデータ) (2025-02-18T14:05:13Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。