論文の概要: RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction
- arxiv url: http://arxiv.org/abs/2410.05361v1
- Date: Mon, 7 Oct 2024 17:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:07:22.209801
- Title: RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction
- Title(参考訳): RespLLM:総合的呼吸健康予測のためのマルチモーダルLCMによる音声とテキストの統合
- Authors: Yuwei Zhang, Tong Xia, Aaqib Saeed, Cecilia Mascolo,
- Abstract要約: RespLLMは、呼吸健康予測のためのテキストと音声の表現を統一する新しいフレームワークである。
我々の研究は、異種データの知覚、聴取、理解が可能なマルチモーダルモデルの基礎を築いた。
- 参考スコア(独自算出の注目度): 20.974460332254544
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The high incidence and mortality rates associated with respiratory diseases underscores the importance of early screening. Machine learning models can automate clinical consultations and auscultation, offering vital support in this area. However, the data involved, spanning demographics, medical history, symptoms, and respiratory audio, are heterogeneous and complex. Existing approaches are insufficient and lack generalizability, as they typically rely on limited training data, basic fusion techniques, and task-specific models. In this paper, we propose RespLLM, a novel multimodal large language model (LLM) framework that unifies text and audio representations for respiratory health prediction. RespLLM leverages the extensive prior knowledge of pretrained LLMs and enables effective audio-text fusion through cross-modal attentions. Instruction tuning is employed to integrate diverse data from multiple sources, ensuring generalizability and versatility of the model. Experiments on five real-world datasets demonstrate that RespLLM outperforms leading baselines by an average of 4.6% on trained tasks, 7.9% on unseen datasets, and facilitates zero-shot predictions for new tasks. Our work lays the foundation for multimodal models that can perceive, listen to, and understand heterogeneous data, paving the way for scalable respiratory health diagnosis.
- Abstract(参考訳): 呼吸器疾患の発症率と死亡率は早期スクリーニングの重要性を浮き彫りにしている。
機械学習モデルは、臨床相談や聴診を自動化することができ、この分野で重要なサポートを提供する。
しかし、人口統計、医療史、症状、呼吸音などを含むデータは異質で複雑である。
既存のアプローチは不十分であり、一般的に限られた訓練データ、基本的な融合技術、タスク固有のモデルに頼っているため、一般化性に欠ける。
本稿では,呼吸状態予測のためのテキストと音声の表現を統一する多モーダル大規模言語モデル(LLM)フレームワークであるRespLLMを提案する。
RespLLMは、事前訓練されたLLMの広範な事前知識を活用し、モーダルな注意を通して効果的な音声テキストの融合を可能にする。
インストラクションチューニングは、複数のソースからの多様なデータを統合するために使われ、モデルの一般化性と汎用性を保証する。
実世界の5つのデータセットの実験では、RespLLMはトレーニングされたタスクで平均4.6%、目に見えないデータセットで7.9%、新しいタスクでゼロショット予測を容易にする。
我々の研究は、異種データの知覚、聴取、理解が可能なマルチモーダルモデルの基盤を築き、スケーラブルな呼吸健康診断の道を開いた。
関連論文リスト
- SpiroActive: Active Learning for Efficient Data Acquisition for Spirometry [1.6462611320898275]
呼吸器疾患は世界で7番目に健康が悪く、世界で3番目に多い死因であり、2019年には323万人が死亡した。
本稿では,機械学習のサブフィールドである能動的学習を用いて,データ収集とラベル付けに関わる課題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-10-30T12:07:30Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis [6.30440420617113]
MedTsLLMは、時系列データとリッチな文脈情報をテキスト形式で統合し、生理的信号を解析する汎用多モーダル大規模言語モデル(LLM)フレームワークである。
本研究は,連続時間における意味的セグメンテーション,境界検出,異常検出という,臨床的関連性のある3つのタスクを実行する。
我々のモデルは、深層学習モデル、他のLSM、および複数の医療領域における臨床方法など、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-08-14T18:57:05Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking [27.708473070563013]
呼吸器オーディオは幅広い医療応用の予測力を持っているが、現在はまだ探索されていない。
OPERA(OPEn Respiratory Acoustic foundation model Pretraining and benchmarking system)を紹介する。
論文 参考訳(メタデータ) (2024-06-23T16:04:26Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - Multimodal LLMs for health grounded in individual-specific data [1.8473477867376036]
基礎となる大規模言語モデル(LLM)は、健康を含む幅広い分野のタスクを解く素晴らしい能力を示している。
我々は、個人固有のデータに基づいて、健康のためのマルチモーダルLSMを作成するための一歩を踏み出した。
我々は,HLMが高次元時系列データに加えて,人口統計学的,臨床的特徴を効果的に利用し,疾患リスクを推定できることを示した。
論文 参考訳(メタデータ) (2023-07-18T07:12:46Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。