論文の概要: UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
- arxiv url: http://arxiv.org/abs/2504.21336v2
- Date: Thu, 29 May 2025 05:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.405547
- Title: UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
- Title(参考訳): UniBiomed: 接地されたバイオメディカルイメージ解釈のためのユニバーサルファンデーションモデル
- Authors: Linshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Luyang Luo, Neeraj Mahboobani, Varut Vardhanabhuti, Ronald Cheong Kin Chan, Yifan Peng, Pranav Rajpurkar, Hao Chen,
- Abstract要約: バイオメディカル画像解釈のための基礎モデルUniBiomedを紹介する。
UniBiomedは正確な診断結果を生成し、対応するバイオメディカルターゲットを同時にセグメンテーションすることができる。
UniBiomedを開発するために,2700万以上の画像,領域アノテーション,テキスト記述を含む大規模データセットをキュレートする。
- 参考スコア(独自算出の注目度): 18.550642453062228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of AI-assisted biomedical image analysis into clinical practice demands AI-generated findings that are not only accurate but also interpretable to clinicians. However, existing biomedical AI models generally lack the ability to simultaneously generate diagnostic findings and localize corresponding biomedical objects. This limitation makes it challenging for clinicians to correlate AI-generated findings with visual evidence (e.g., tiny lesions) in images and interpret the results of AI models. To address this challenge, we introduce UniBiomed, the first universal foundation model for grounded biomedical image interpretation, which is capable of generating accurate diagnostic findings and simultaneously segmenting the corresponding biomedical targets. UniBiomed is based on a novel integration of Multi-modal Large Language Model and Segment Anything Model, which can effectively unify diverse biomedical tasks in universal training for advancing grounded interpretation. To develop UniBiomed, we curate a large-scale dataset comprising over 27 million triplets of images, region annotations, and text descriptions across ten biomedical imaging modalities. Extensive validation on 70 internal and 14 external datasets demonstrated the state-of-the-art performance of UniBiomed in diverse biomedical tasks, including image segmentation, disease recognition, region-aware diagnosis, vision question answering, and report generation. In summary, UniBiomed is a powerful and versatile biomedical foundation model, unlocking the untapped grounded interpretation capability for optimizing AI-assisted biomedical image analysis.
- Abstract(参考訳): AIによるバイオメディカルイメージ分析を臨床実践に統合するためには、AIが生成した発見が正確であるだけでなく、臨床医にも解釈可能であることが必要である。
しかし、既存のバイオメディカルAIモデルは、診断結果を同時に生成し、対応するバイオメディカルオブジェクトをローカライズする能力に欠ける。
この制限により、臨床医は画像内の視覚的エビデンス(たとえば小さな病変)とAIモデルの結果を相関付け、解釈することが困難になる。
この課題に対処するため, バイオメディカル画像解釈のための基盤モデルUniBiomedを導入し, 正確な診断結果を生成し, 対応するバイオメディカルターゲットを同時に分割する。
UniBiomedは、マルチモーダルな大規模言語モデルとセグメンツ・ア・シング・モデルを組み合わせた新しい統合に基づいており、基盤的解釈を進めるための普遍的なトレーニングにおいて、多様な生物医学的タスクを効果的に統一することができる。
UniBiomedを開発するために,2700万以上の画像,領域アノテーション,テキスト記述を含む大規模データセットを10種類のバイオメディカルイメージングモードでキュレートした。
70の内部データセットと14の外部データセットに対する広範囲な検証は、画像分割、疾患認識、地域認識診断、視覚質問応答、レポート生成など、多様なバイオメディカルタスクにおけるUniBiomdの最先端性能を実証した。
要約すると、UniBiomedは強力で汎用的なバイオメディカル基礎モデルであり、AI支援バイオメディカル画像解析を最適化するための未解決の基盤解釈能力を解き放つ。
関連論文リスト
- An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training [40.16314726875265]
ConceptCLIPは、最先端の診断精度を達成する最初の説明可能なバイオメディカル基礎モデルである。
本研究では,グローバルな画像テキスト表現と細粒度領域概念関連を同時に学習する,新しいデュアルアライメントアプローチにより,概念CLIPを開発する。
論文 参考訳(メタデータ) (2025-01-26T16:07:11Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models [2.2585213273821716]
本稿では,バイオメディカル画像解析のための新しいプロンプト学習フレームワークであるBiomedCoOpを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-21T19:13:04Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - μ-Bench: A Vision-Language Benchmark for Microscopy Understanding [43.27182445778988]
視覚言語モデル(VLM)は、大規模生物学的画像解析に有望なソリューションを提供する。
VLMを評価するための、標準化された、多様な、そして大規模なビジョンベンチマークが欠如している。
mu-Benchは22のバイオメディカルタスクを含む専門家によるベンチマークである。
論文 参考訳(メタデータ) (2024-07-01T20:30:26Z) - BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once [58.41069132627823]
全体像解析は、セグメンテーション、検出、関連するオブジェクトの認識などのサブタスクを含む。
そこで本研究では,9つの画像モダリティにまたがる82種類のオブジェクトの分割,検出,認識を共同で行うことができる,画像解析のためのバイオメディカル基礎モデルであるBiomedParseを提案する。
共同学習により、個々のタスクの精度を向上し、テキストプロンプトを通じてノイズの多い画像中のすべての関連オブジェクトを分割するといった新しいアプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-05-21T17:54:06Z) - BioLORD-2023: Semantic Textual Representations Fusing LLM and Clinical
Knowledge Graph Insights [15.952942443163474]
バイオメディカルな概念と文の高忠実度表現を得るための新しい最先端手法を提案する。
これまでの技術状況よりも一貫した、実質的なパフォーマンス向上を実証する。
英語のための最新のバイオメディカルモデルに加えて、50以上の言語と互換性のある多言語モデルを蒸留してリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:46:17Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [46.87322157229728]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。