論文の概要: From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine
- arxiv url: http://arxiv.org/abs/2502.09242v1
- Date: Thu, 13 Feb 2025 11:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:35.250293
- Title: From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine
- Title(参考訳): 大規模言語モデルからマルチモーダルAI:医療における生成AIの可能性に関するスコーピングレビュー
- Authors: Lukas Buess, Matthias Keicher, Nassir Navab, Andreas Maier, Soroosh Tayebi Arasteh,
- Abstract要約: マルチモーダルAIは、イメージング、テキスト、構造化データを含む多様なデータモダリティを単一のモデルに統合することができる。
このスコーピングレビューは、マルチモーダルAIの進化を探求し、その方法、アプリケーション、データセット、臨床環境での評価を強調している。
診断支援,医療報告生成,薬物発見,会話型AIの革新を推進し,一過性のアプローチからマルチモーダルアプローチへのシフトを示唆した。
- 参考スコア(独自算出の注目度): 40.23383597339471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence (AI) models, such as diffusion models and OpenAI's ChatGPT, are transforming medicine by enhancing diagnostic accuracy and automating clinical workflows. The field has advanced rapidly, evolving from text-only large language models for tasks such as clinical documentation and decision support to multimodal AI systems capable of integrating diverse data modalities, including imaging, text, and structured data, within a single model. The diverse landscape of these technologies, along with rising interest, highlights the need for a comprehensive review of their applications and potential. This scoping review explores the evolution of multimodal AI, highlighting its methods, applications, datasets, and evaluation in clinical settings. Adhering to PRISMA-ScR guidelines, we systematically queried PubMed, IEEE Xplore, and Web of Science, prioritizing recent studies published up to the end of 2024. After rigorous screening, 144 papers were included, revealing key trends and challenges in this dynamic field. Our findings underscore a shift from unimodal to multimodal approaches, driving innovations in diagnostic support, medical report generation, drug discovery, and conversational AI. However, critical challenges remain, including the integration of heterogeneous data types, improving model interpretability, addressing ethical concerns, and validating AI systems in real-world clinical settings. This review summarizes the current state of the art, identifies critical gaps, and provides insights to guide the development of scalable, trustworthy, and clinically impactful multimodal AI solutions in healthcare.
- Abstract(参考訳): 拡散モデルやOpenAIのChatGPTのような生成人工知能(AI)モデルは、診断精度を高め、臨床ワークフローを自動化することで医療を変革している。
この分野は急速に発展し、臨床ドキュメントや意思決定支援などのタスクのためのテキストのみの大規模言語モデルから、イメージング、テキスト、構造化データを含む多様なデータモダリティを単一のモデルに統合できるマルチモーダルAIシステムへと進化してきた。
これらの技術の多様な展望は、関心の高まりとともに、アプリケーションと潜在可能性に関する包括的なレビューの必要性を強調している。
このスコーピングレビューは、マルチモーダルAIの進化を探求し、その方法、アプリケーション、データセット、臨床環境での評価を強調している。
PRISMA-ScRガイドラインに従って, PubMed, IEEE Xplore, Web of Scienceを体系的に検索し, 2024年末までの最近の研究を優先した。
厳密なスクリーニングの後、144の論文が含まれ、このダイナミックな分野における重要なトレンドと課題を明らかにした。
診断支援,医療報告生成,薬物発見,会話型AIの革新を推進し,一過性のアプローチからマルチモーダルアプローチへのシフトを示唆した。
しかし、異種データ型の統合、モデルの解釈可能性の改善、倫理的懸念への対処、現実の臨床環境でのAIシステムの検証など、重要な課題が残っている。
このレビューでは、現在の最先端の状況を要約し、重要なギャップを特定し、医療におけるスケーラブルで信頼性が高く、臨床的に影響のあるマルチモーダルAIソリューションの開発をガイドするための洞察を提供する。
関連論文リスト
- Towards deployment-centric multimodal AI beyond vision and language [67.02589156099391]
デプロイ不能なソリューションの可能性を減らすために、デプロイメント制約を早期に組み込んだデプロイメント中心のワークフローを提唱します。
我々は、複数の分野にまたがる共通のマルチモーダルAI固有の課題を特定し、3つの実世界のユースケースについて検討する。
複数の学際的な対話とオープンな研究プラクティスを育むことで、我々のコミュニティは、広く社会に影響を及ぼすためのデプロイメント中心の開発を加速できる。
論文 参考訳(メタデータ) (2025-04-04T17:20:05Z) - A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Navigating the landscape of multimodal AI in medicine: a scoping review on technical challenges and clinical applications [2.3754862363513523]
本稿では,医学領域全体にわたるディープラーニングベースのマルチモーダルAIアプリケーションの展望を概観する。
マルチモーダルAIモデルは、AUCの6.2ポイントの平均的な改善により、一貫して単調なAIモデルを上回っている。
我々は,マルチモーダルAI開発を推進している重要な要因を特定し,フィールドの成熟を促進するための推奨事項を提案する。
論文 参考訳(メタデータ) (2024-11-06T09:18:05Z) - The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。
最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。
このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文 参考訳(メタデータ) (2024-09-03T00:48:50Z) - Clinical Insights: A Comprehensive Review of Language Models in Medicine [1.5020330976600738]
本稿では,医療における言語モデルの進歩と応用について考察し,臨床応用事例に着目した。
テキストと視覚データをテキスト内学習を通じて統合することのできる、最先端の大規模言語とマルチモーダルモデルに、広範囲な微調整を必要とする初期エンコーダベースのシステムから進化について検討する。
この分析は、データのプライバシと運用の自律性を向上するローカルデプロイ可能なモデルと、テキスト生成、分類、情報抽出、会話システムといったタスクにおけるそれらの応用を強調している。
論文 参考訳(メタデータ) (2024-08-21T15:59:33Z) - Practical Applications of Advanced Cloud Services and Generative AI Systems in Medical Image Analysis [17.4235794108467]
本稿では、医用画像における生成AIの変換可能性について考察し、合成ACM-2データを生成する能力を強調した。
データセットのサイズと多様性の制限に対処することにより、これらのモデルはより正確な診断と患者の結果の改善に寄与する。
論文 参考訳(メタデータ) (2024-03-26T09:55:49Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Multimodal Machine Learning in Image-Based and Clinical Biomedicine:
Survey and Prospects [2.1070612998322438]
本稿では,臨床予測のためのマルチモーダルモデルの変換可能性について検討する。
進歩にもかかわらず、多くの生物医学領域におけるデータバイアスや「ビッグデータ」の不足といった課題が続いている。
論文 参考訳(メタデータ) (2023-11-04T05:42:51Z) - A Comprehensive Review of Generative AI in Healthcare [0.0]
生成AIモデル、特にトランスフォーマーと拡散モデルは、多様な形式のデータを分析する上で重要な役割を担っている。
これらのモデルは、医用画像、タンパク質構造予測、臨床ドキュメント、診断補助、放射線学解釈、臨床診断支援、医用コーディング、請求など、様々な種類のデータを分析する上で重要な役割を果たしてきた。
本稿では、トランスフォーマーと拡散モデルに焦点をあて、医療における生成AI応用の概要を概観することを目的とする。
論文 参考訳(メタデータ) (2023-10-01T21:13:14Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。