論文の概要: SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation
- arxiv url: http://arxiv.org/abs/2410.14948v1
- Date: Sat, 19 Oct 2024 02:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:11.971994
- Title: SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation
- Title(参考訳): SemiHVision: 半Humanアノテーションデータセットと微調整インストラクション生成による医療マルチモーダルモデルの実現
- Authors: Junda Wang, Yujan Ting, Eric Z. Chen, Hieu Tran, Hong Yu, Weijing Huang, Terrence Chen,
- Abstract要約: MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
- 参考スコア(独自算出の注目度): 13.672776832197918
- License:
- Abstract: Multimodal large language models (MLLMs) have made significant strides, yet they face challenges in the medical domain due to limited specialized knowledge. While recent medical MLLMs demonstrate strong performance in lab settings, they often struggle in real-world applications, highlighting a substantial gap between research and practice. In this paper, we seek to address this gap at various stages of the end-to-end learning pipeline, including data collection, model fine-tuning, and evaluation. At the data collection stage, we introduce SemiHVision, a dataset that combines human annotations with automated augmentation techniques to improve both medical knowledge representation and diagnostic reasoning. For model fine-tuning, we trained PMC-Cambrian-8B-AN over 2400 H100 GPU hours, resulting in performance that surpasses public medical models like HuatuoGPT-Vision-34B (79.0% vs. 66.7%) and private general models like Claude3-Opus (55.7%) on traditional benchmarks such as SLAKE and VQA-RAD. In the evaluation phase, we observed that traditional benchmarks cannot accurately reflect realistic clinical task capabilities. To overcome this limitation and provide more targeted guidance for model evaluation, we introduce the JAMA Clinical Challenge, a novel benchmark specifically designed to evaluate diagnostic reasoning. On this benchmark, PMC-Cambrian-AN achieves state-of-the-art performance with a GPT-4 score of 1.29, significantly outperforming HuatuoGPT-Vision-34B (1.13) and Claude3-Opus (1.17), demonstrating its superior diagnostic reasoning abilities.
- Abstract(参考訳): MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
最近の医療MLLMは実験室での強い性能を示しているが、現実の応用に苦しむことが多く、研究と実践の間にかなりのギャップがあることが浮き彫りになっている。
本稿では,データ収集,モデル微調整,評価など,エンドツーエンド学習パイプラインの様々な段階において,このギャップに対処することを目的とする。
データ収集の段階では、人間のアノテーションと自動拡張技術を組み合わせたデータセットであるSemiHVisionを導入し、医療知識表現と診断推論の両方を改善する。
PMC-Cambrian-8B-ANを2400 H100 GPU時間でトレーニングした結果,HuatuoGPT-Vision-34B (79.0% vs. 66.7%) や Claude3-Opus (55.7%) などの一般用モデルよりもパフォーマンスが向上した。
評価段階では,従来のベンチマークではリアルな臨床タスク能力を正確に反映できないことがわかった。
この限界を克服し、モデル評価のためのよりターゲット的なガイダンスを提供するために、診断推論を評価するために特別に設計された新しいベンチマークであるJAMA Clinical Challengeを導入する。
このベンチマークでは、PMC-Cambrian-ANはGPT-4スコア1.29で最先端のパフォーマンスを達成し、HuatuoGPT-Vision-34B (1.13) とClaude3-Opus (1.17) を著しく上回り、診断的推論能力に優れていた。
関連論文リスト
- Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? [44.265524592991945]
医療モデルでは, ゼロ/フェールシューティング方式では, 基礎モデルよりも常に改善が得られないことが示される。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-06T18:51:02Z) - Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。
InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。
ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文 参考訳(メタデータ) (2024-09-30T19:10:03Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification on the DAIC-WOZ [0.0]
メジャー・うつ病(Major Depressive Disorder、MDD)は、世界中の3億人に影響を及ぼす広汎な精神疾患である。
本研究は, 臨床面接記録からのうつ病のバイナリ分類のための, BiLSTM に基づくトリモーダルモデルレベルの融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-27T21:00:36Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。