Fugu-MT 論文翻訳(概要): Towards Generalist Biomedical AI

論文の概要: Towards Generalist Biomedical AI

arxiv url: http://arxiv.org/abs/2307.14334v1
Date: Wed, 26 Jul 2023 17:52:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 11:30:54.437032
Title: Towards Generalist Biomedical AI
Title（参考訳）: 汎用バイオメディカルAIを目指して
Authors: Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan
Abstract要約: 我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
参考スコア（独自算出の注目度）: 28.68106423175678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medicine is inherently multimodal, with rich data modalities spanning text, imaging, genomics, and more. Generalist biomedical artificial intelligence (AI) systems that flexibly encode, integrate, and interpret this data at scale can potentially enable impactful applications ranging from scientific discovery to care delivery. To enable the development of these models, we first curate MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses 14 diverse tasks such as medical question answering, mammography and dermatology image interpretation, radiology report generation and summarization, and genomic variant calling. We then introduce Med-PaLM Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI system. Med-PaLM M is a large multimodal generative model that flexibly encodes and interprets biomedical data including clinical language, imaging, and genomics with the same set of model weights. Med-PaLM M reaches performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models by a wide margin. We also report examples of zero-shot generalization to novel medical concepts and tasks, positive transfer learning across tasks, and emergent zero-shot medical reasoning. To further probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist evaluation of model-generated (and human) chest X-ray reports and observe encouraging performance across model scales. In a side-by-side ranking on 246 retrospective chest X-rays, clinicians express a pairwise preference for Med-PaLM M reports over those produced by radiologists in up to 40.50% of cases, suggesting potential clinical utility. While considerable work is needed to validate these models in real-world use cases, our results represent a milestone towards the development of generalist biomedical AI systems.
Abstract（参考訳）: 医学は本質的にマルチモーダルであり、テキスト、画像、ゲノムなど幅広いリッチなデータモダリティを持つ。このデータを柔軟にエンコードし、統合し、大規模に解釈する一般のバイオメディカル人工知能(AI)システムは、科学的発見からケアデリバリーまで、影響のあるアプリケーションを可能にする可能性がある。これらのモデルの開発を可能にするために,我々はまず,新しいマルチモーダルバイオメディカルベンチマークであるMultiMedBenchをキュレートする。 MultiMedBenchは、医学的質問応答、マンモグラフィーと皮膚科のイメージ解釈、放射線学レポートの生成と要約、ゲノム変異呼び出しなどの14のタスクを含む。次に、汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 med-palm mは、同じモデル重みを持つ臨床言語、画像、ゲノムを含む生体医学データを柔軟にエンコードし、解釈する大きなマルチモーダル生成モデルである。 Med-PaLM Mは、すべてのMultiMedBenchタスクにおける技術状況と競合するか、あるいは超越している。また,新しい医療概念や課題に対するゼロショット一般化,タスク間のポジティブトランスファー学習,創発的ゼロショット医療推論の例を報告する。我々は,Med-PaLM Mの能力と限界を更に探究するために,モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い,モデルスケールでの性能向上を観察する。 246例の胸部X線を並べて評価すると、臨床医は放射線科医が最大40.50%の症例で作成したものよりも、Med-PaLM Mの報告を相互に好んでいる。実世界のユースケースでこれらのモデルを検証するには、かなりの作業が必要であるが、私たちの結果は、一般のバイオメディカルAIシステムの開発に向けたマイルストーンである。

関連論文リスト

Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文参考訳（メタデータ） (2025-03-03T22:42:00Z)
MedMax: Mixed-Modal Instruction Tuning for Training Biomedical Assistants [28.04215981636089]
混合モーダル基礎モデルのための大規模マルチモーダルバイオメディカルインストラクションチューニングデータセットであるMedMaxについて述べる。 1.47万のインスタンスを持つMedMaxは、インターリーブ画像テキスト生成、バイオメディカル画像キャプションと生成、ビジュアルチャット、レポート理解など、さまざまなタスクを含んでいる。我々は、MedMaxデータセットの混合モーダル基礎モデルを微調整し、大幅なパフォーマンス改善を実現した。
論文参考訳（メタデータ） (2024-12-17T08:30:00Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。 MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文参考訳（メタデータ） (2024-09-29T12:23:10Z)
The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文参考訳（メタデータ） (2024-09-03T00:48:50Z)
MultiMed: Massively Multimodal and Multitask Medical Understanding [41.160488390597905]
MultiMedは、幅広い医学的モダリティとタスクにわたる大規模学習の評価と有効化を目的として設計されたベンチマークである。医療報告、病理学、ゲノム学、タンパク質データなど10の医療モダリティにまたがる256万のサンプルで構成されている。我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
論文参考訳（メタデータ） (2024-08-22T18:41:36Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant [15.30998544228763]
MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティの統一的な生成タスクを統一する医療生成モデルである。 10のデータセットにまたがって5つの医療生成タスクを実行する。
論文参考訳（メタデータ） (2024-03-07T07:39:00Z)
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文参考訳（メタデータ） (2023-06-01T16:50:07Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。 PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。 PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文参考訳（メタデータ） (2023-03-02T02:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。