論文の概要: AdCare-VLM: Leveraging Large Vision Language Model (LVLM) to Monitor Long-Term Medication Adherence and Care
- arxiv url: http://arxiv.org/abs/2505.00275v1
- Date: Thu, 01 May 2025 03:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.213403
- Title: AdCare-VLM: Leveraging Large Vision Language Model (LVLM) to Monitor Long-Term Medication Adherence and Care
- Title(参考訳): AdCare-VLM:長期医療適応とケアのための大規模視覚言語モデル(LVLM)の活用
- Authors: Md Asaduzzaman Jabin, Hanqi Jiang, Yiwei Li, Patrick Kaggwa, Eugene Douglass, Juliet N. Sekandi, Tianming Liu,
- Abstract要約: 本稿では,ビデオラバをベースとしたマルチモーダル大規模視覚言語モデル (LVLM) であるAdCare-VLMを提案する。
806個のカスタムアノテート結核 (TB) 薬品監視ビデオからなるプライベートデータセットを用いて, 付着パターン検出のためのモデルを微調整する。
本手法は, 患者の顔の鮮明な視認性, 薬物, 水摂取量, 摂食行動, 関連する医療概念などの視覚的特徴の相関関係を明らかにする。
- 参考スコア(独自算出の注目度): 12.344561359460819
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chronic diseases, including diabetes, hypertension, asthma, HIV-AIDS, epilepsy, and tuberculosis, necessitate rigorous adherence to medication to avert disease progression, manage symptoms, and decrease mortality rates. Adherence is frequently undermined by factors including patient behavior, caregiver support, elevated medical costs, and insufficient healthcare infrastructure. We propose AdCare-VLM, a specialized Video-LLaVA-based multimodal large vision language model (LVLM) aimed at visual question answering (VQA) concerning medication adherence through patient videos. We employ a private dataset comprising 806 custom-annotated tuberculosis (TB) medication monitoring videos, which have been labeled by clinical experts, to fine-tune the model for adherence pattern detection. We present LLM-TB-VQA, a detailed medical adherence VQA dataset that encompasses positive, negative, and ambiguous adherence cases. Our method identifies correlations between visual features, such as the clear visibility of the patient's face, medication, water intake, and the act of ingestion, and their associated medical concepts in captions. This facilitates the integration of aligned visual-linguistic representations and improves multimodal interactions. Experimental results indicate that our method surpasses parameter-efficient fine-tuning (PEFT) enabled VLM models, such as LLaVA-V1.5 and Chat-UniVi, with absolute improvements ranging from 3.1% to 3.54% across pre-trained, regular, and low-rank adaptation (LoRA) configurations. Comprehensive ablation studies and attention map visualizations substantiate our approach, enhancing interpretability.
- Abstract(参考訳): 糖尿病、高血圧、喘息、HIV-AIDS、てんかん、結核などの慢性疾患は、病気の進行を回避し、症状を管理し、死亡率を低下させるために、薬物の厳格な付着を必要とする。
患者行動、介護者支援、医療費の上昇、医療インフラの不足といった要因によって、定着度はしばしば損なわれている。
本稿では,患者ビデオによる薬物の付着に関する視覚的質問応答(VQA)を目的とした,ビデオ-LLaVAベースのマルチモーダル・大型視覚言語モデル(LVLM)であるAdCare-VLMを提案する。
臨床専門家によってラベル付けされた,806個のカスタムアノテート結核(TB)薬物モニタリングビデオからなるプライベートデータセットを用いて,付着パターン検出のモデルを微調整する。
LLM-TB-VQAは, 陽性, 陰性, 曖昧な付着症例を含む詳細な医学的付着VQAデータセットである。
本手法は, 患者の顔の鮮明な視認性, 薬物, 水摂取量, 摂食行動, 関連する医療概念などの視覚的特徴の相関関係を明らかにする。
これにより、アライメントされた視覚言語表現の統合が促進され、マルチモーダルな相互作用が改善される。
実験の結果,LLaVA-V1.5 や Chat-UniVi など,パラメータ効率のよい VLM モデルを超え,事前学習,正規化,低ランク適応(LoRA) 構成で3.1% から3.54% の絶対改善が得られた。
包括的アブレーション研究とアテンションマップ可視化は我々のアプローチを裏付け、解釈可能性を高める。
関連論文リスト
- Vision Language Models in Medicine [3.964982657945488]
Medical Vision-Language Models (Med-VLMs) は、医療結果を改善するために、視覚データとテキストデータを統合している。
Med-VLMs が臨床, 教育, 患者医療に与える影響を強調した。
データ不足、タスクの一般化、解釈可能性の問題、公平性、説明責任、プライバシといった倫理的懸念といった課題が強調されます。
今後の方向性には、大規模で多様なデータセットの活用、クロスモーダルな一般化の改善、解釈可能性の向上などが含まれる。
論文 参考訳(メタデータ) (2025-02-24T22:53:22Z) - A Learnable Multi-views Contrastive Framework with Reconstruction Discrepancy for Medical Time-Series [8.741139851597364]
本稿では、関連するタスクから外部データを取り込み、AE-GANを利用して事前知識を抽出することを提案する。
マルチヘッドアテンション機構を統合し,異なる視点から表現を適応的に学習するフレームワークであるLMCFを紹介する。
3つのターゲットデータセットの実験により、我々の手法が他の7つのベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-01-30T14:20:11Z) - Training Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
本報告では,Unveiling Medicalnomaitiesを用いたUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
実験の結果, UMed-LVLMは既存のMed-LVLMを上回り, 医学的異常を同定し, 理解していることがわかった。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review [0.0]
医療ビジョン言語モデル(VLM)は、コンピュータビジョン(CV)と自然言語処理(NLP)を組み合わせて医療データを分析する。
本稿では,医療報告生成と視覚的質問応答のためのモデル開発における最近の進歩についてレビューする。
論文 参考訳(メタデータ) (2024-03-04T20:29:51Z) - CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization
in Healthcare [16.033112094191395]
MMQS(Multimodal Medical Question Summarization)データセットを紹介する。
このデータセットは、医用クエリと視覚補助とを組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。
また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を作成する4つのモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-16T03:02:05Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。