論文の概要: UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
- arxiv url: http://arxiv.org/abs/2504.21336v1
- Date: Wed, 30 Apr 2025 05:51:48 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:56:34.62722
- Title: UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
- Title(参考訳): UniBiomed: 接地されたバイオメディカルイメージ解釈のためのユニバーサルファンデーションモデル
- Authors: Linshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen,
- Abstract要約: バイオメディカル画像解釈のための基礎モデルUniBiomedを紹介する。
UniBiomed は Multi-modal Large Language Model (MLLM) と Segment Anything Model (SAM) の新たな統合に基づいている
UniBiomedを開発するために、画像、アノテーション、テキスト記述を10つの画像モダリティで2700万以上含む大規模なデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 8.781512619275208
- License:
- Abstract: Multi-modal interpretation of biomedical images opens up novel opportunities in biomedical image analysis. Conventional AI approaches typically rely on disjointed training, i.e., Large Language Models (LLMs) for clinical text generation and segmentation models for target extraction, which results in inflexible real-world deployment and a failure to leverage holistic biomedical information. To this end, we introduce UniBiomed, the first universal foundation model for grounded biomedical image interpretation. UniBiomed is based on a novel integration of Multi-modal Large Language Model (MLLM) and Segment Anything Model (SAM), which effectively unifies the generation of clinical texts and the segmentation of corresponding biomedical objects for grounded interpretation. In this way, UniBiomed is capable of tackling a wide range of biomedical tasks across ten diverse biomedical imaging modalities. To develop UniBiomed, we curate a large-scale dataset comprising over 27 million triplets of images, annotations, and text descriptions across ten imaging modalities. Extensive validation on 84 internal and external datasets demonstrated that UniBiomed achieves state-of-the-art performance in segmentation, disease recognition, region-aware diagnosis, visual question answering, and report generation. Moreover, unlike previous models that rely on clinical experts to pre-diagnose images and manually craft precise textual or visual prompts, UniBiomed can provide automated and end-to-end grounded interpretation for biomedical image analysis. This represents a novel paradigm shift in clinical workflows, which will significantly improve diagnostic efficiency. In summary, UniBiomed represents a novel breakthrough in biomedical AI, unlocking powerful grounded interpretation capabilities for more accurate and efficient biomedical image analysis.
- Abstract(参考訳): 生体画像のマルチモーダル解釈は、生体画像解析において新たな機会を開く。
従来のAIアプローチは、典型的には非結合トレーニング、すなわち、臨床テキスト生成のためのLLM(Large Language Models)とターゲット抽出のためのセグメンテーションモデルに頼っている。
この目的のために,バイオメディカル画像解釈のための基礎モデルUniBiomedを紹介した。
UniBiomedは、MLLM(Multi-modal Large Language Model)とSAM(Segment Anything Model)の新たな統合に基づいている。
この方法では、UniBiomedは10の多様なバイオメディカルイメージングモダリティにまたがって、幅広いバイオメディカルタスクに取り組むことができる。
UniBiomedを開発するために,2700万以上の画像,アノテーション,テキスト記述を含む大規模なデータセットを10種類の画像モダリティでキュレートする。
84の内外のデータセットに対する広範囲な検証は、UniBiomedがセグメント化、疾患認識、地域認識診断、視覚的質問応答、レポート生成において最先端のパフォーマンスを達成することを示した。
さらに、臨床専門家に頼って画像の事前診断を行い、手動で正確なテキストまたは視覚的プロンプトを作成する従来のモデルとは異なり、UniBiomedは、バイオメディカル画像分析の自動化とエンドツーエンドの解釈を提供することができる。
これは、臨床ワークフローにおける新しいパラダイムシフトであり、診断効率を大幅に改善する。
要約すると、UniBiomedはバイオメディカルAIの新しいブレークスルーであり、より正確で効率的なバイオメディカル画像解析のために強力な基底解釈能力を解放している。
関連論文リスト
- An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training [40.16314726875265]
ConceptCLIPは、最先端の診断精度を達成する最初の説明可能なバイオメディカル基礎モデルである。
本研究では,グローバルな画像テキスト表現と細粒度領域概念関連を同時に学習する,新しいデュアルアライメントアプローチにより,概念CLIPを開発する。
論文 参考訳(メタデータ) (2025-01-26T16:07:11Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models [2.2585213273821716]
本稿では,バイオメディカル画像解析のための新しいプロンプト学習フレームワークであるBiomedCoOpを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-21T19:13:04Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - μ-Bench: A Vision-Language Benchmark for Microscopy Understanding [43.27182445778988]
視覚言語モデル(VLM)は、大規模生物学的画像解析に有望なソリューションを提供する。
VLMを評価するための、標準化された、多様な、そして大規模なビジョンベンチマークが欠如している。
mu-Benchは22のバイオメディカルタスクを含む専門家によるベンチマークである。
論文 参考訳(メタデータ) (2024-07-01T20:30:26Z) - BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once [58.41069132627823]
全体像解析は、セグメンテーション、検出、関連するオブジェクトの認識などのサブタスクを含む。
そこで本研究では,9つの画像モダリティにまたがる82種類のオブジェクトの分割,検出,認識を共同で行うことができる,画像解析のためのバイオメディカル基礎モデルであるBiomedParseを提案する。
共同学習により、個々のタスクの精度を向上し、テキストプロンプトを通じてノイズの多い画像中のすべての関連オブジェクトを分割するといった新しいアプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-05-21T17:54:06Z) - BioLORD-2023: Semantic Textual Representations Fusing LLM and Clinical
Knowledge Graph Insights [15.952942443163474]
バイオメディカルな概念と文の高忠実度表現を得るための新しい最先端手法を提案する。
これまでの技術状況よりも一貫した、実質的なパフォーマンス向上を実証する。
英語のための最新のバイオメディカルモデルに加えて、50以上の言語と互換性のある多言語モデルを蒸留してリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:46:17Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [46.87322157229728]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。