Fugu-MT 論文翻訳(概要): Med-Flamingo: a Multimodal Medical Few-shot Learner

論文の概要: Med-Flamingo: a Multimodal Medical Few-shot Learner

arxiv url: http://arxiv.org/abs/2307.15189v1
Date: Thu, 27 Jul 2023 20:36:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 14:22:25.852369
Title: Med-Flamingo: a Multimodal Medical Few-shot Learner
Title（参考訳）: Med-Flamingo:マルチモーダル・メディカル・ファウショット学習者
Authors: Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec
Abstract要約: 医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
参考スコア（独自算出の注目度）: 58.85676013818811
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.
Abstract（参考訳）: 医学はその性質上、様々な様相にわたる情報の合成を必要とする多面的領域である。医療生成視覚言語モデル(VLM)はこの方向への第一歩を踏み出し、多くのエキサイティングな臨床応用を約束する。しかし、既存のモデルは、大容量のダウンストリームデータセットに基づいて微調整される必要があり、多くの医療応用データが不足しているため、かなりの制限を課し、リアルタイムに少数のサンプルから学習できるモデルを必要とします。本稿では,医療領域に適応したマルチモーダルな数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。 Med-Flamingoは、数発の生成的医用視覚質問応答(VQA)機能をアンロックし、いくつかのデータセットで評価する。さらに、我々は、医師が対話型アプリケーションで問題や失明世代をレビューする、生成医療用VQAの最初の人的評価を行う。 med-flamingoは、臨床医のレーティングで最大20\%向上し、まずは合理化などマルチモーダルな医療的少数ショット適応を可能にする。私たちは、モデル、コード、評価アプリをhttps://github.com/snap-stanford/med-flamingoでリリースしています。

関連論文リスト

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos [16.86256309424395]
MedVideoCap-55Kは、医用ビデオ生成のための、最初の大規模、多様な、キャプションに富んだデータセットである。実際の医療シナリオにまたがる55,000以上のキュレートされたクリップで構成されている。このデータセット上に構築されたMedGenは,オープンソースモデル間での先行的なパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-08T04:58:36Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。 UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文参考訳（メタデータ） (2024-12-13T18:59:40Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
FedMedICL: Towards Holistic Evaluation of Distribution Shifts in Federated Medical Imaging [68.6715007665896]
FedMedICLは統合されたフレームワークであり、フェデレートされた医療画像の課題を全体評価するためのベンチマークである。 6種類の医用画像データセットについて,いくつかの一般的な手法を総合的に評価した。単純なバッチ分散手法はFedMedICL実験全体の平均性能において,高度な手法を超越していることがわかった。
論文参考訳（メタデータ） (2024-07-11T19:12:23Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文参考訳（メタデータ） (2024-02-14T13:51:56Z)
Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文参考訳（メタデータ） (2023-09-20T06:06:10Z)
Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2023-07-11T15:00:11Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。