論文の概要: μ-Bench: A Vision-Language Benchmark for Microscopy Understanding
- arxiv url: http://arxiv.org/abs/2407.01791v1
- Date: Mon, 1 Jul 2024 20:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:23:01.120529
- Title: μ-Bench: A Vision-Language Benchmark for Microscopy Understanding
- Title(参考訳): μ-Bench:顕微鏡理解のためのビジョンランゲージベンチマーク
- Authors: Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy,
- Abstract要約: 視覚言語モデル(VLM)は、大規模生物学的画像解析に有望なソリューションを提供する。
VLMを評価するための、標準化された、多様な、そして大規模なビジョンベンチマークが欠如している。
mu-Benchは22のバイオメディカルタスクを含む専門家によるベンチマークである。
- 参考スコア(独自算出の注目度): 43.27182445778988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in microscopy have enabled the rapid generation of terabytes of image data in cell biology and biomedical research. Vision-language models (VLMs) offer a promising solution for large-scale biological image analysis, enhancing researchers' efficiency, identifying new image biomarkers, and accelerating hypothesis generation and scientific discovery. However, there is a lack of standardized, diverse, and large-scale vision-language benchmarks to evaluate VLMs' perception and cognition capabilities in biological image understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated benchmark encompassing 22 biomedical tasks across various scientific disciplines (biology, pathology), microscopy modalities (electron, fluorescence, light), scales (subcellular, cellular, tissue), and organisms in both normal and abnormal states. We evaluate state-of-the-art biomedical, pathology, and general VLMs on {\mu}-Bench and find that: i) current models struggle on all categories, even for basic tasks such as distinguishing microscopy modalities; ii) current specialist models fine-tuned on biomedical data often perform worse than generalist models; iii) fine-tuning in specific microscopy domains can cause catastrophic forgetting, eroding prior biomedical knowledge encoded in their base model. iv) weight interpolation between fine-tuned and pre-trained models offers one solution to forgetting and improves general performance across biomedical tasks. We release {\mu}-Bench under a permissive license to accelerate the research and development of microscopy foundation models.
- Abstract(参考訳): 顕微鏡の最近の進歩により、細胞生物学や生物医学の研究において、テラバイトの画像データが急速に生成されるようになった。
視覚言語モデル(VLM)は、大規模な生物学的画像解析、研究者の効率の向上、新しい画像バイオマーカーの同定、仮説生成と科学的発見の加速のための有望なソリューションを提供する。
しかし、生体画像理解におけるVLMの認識と認識能力を評価するために、標準化された、多様な、そして大規模な視覚ベンチマークが欠如している。
このギャップに対処するために、様々な科学分野(生物学、病理学)、顕微鏡(電子、蛍光、光)、スケール(細胞内、細胞、組織)、および正常状態と異常状態の両方で22のバイオメディカルタスクを含む専門家によるベンチマークである {\mu}-Benchを紹介した。
{\mu}-Bench のバイオメディカル,病理,一般 VLM の評価を行い,以下の結果を得た。
一 現在のモデルは、微視的モダリティの識別等の基本的な業務においてさえ、あらゆるカテゴリーで苦戦している。
二 バイオメディカルデータに基づいて微調整された現行のスペシャリストモデルは、ジェネラリストモデルよりしばしば悪化する。
三 特定の顕微鏡領域の微調整は、その基礎モデルに符号化された生物医学的知識を侵食し、破滅的な忘れを生ずるおそれがある。
四 微調整済みモデルと事前訓練済みモデルとの重量補間は、バイオメディカルタスクの全般的な性能を忘れ、改善するための一つの解決策となる。
我々は、顕微鏡基礎モデルの研究と開発を加速するために、許容ライセンスの下でv.mu}-Benchをリリースする。
関連論文リスト
- ViTally Consistent: Scaling Biological Representation Learning for Cell Microscopy [3.432992120614117]
細胞顕微鏡データの基盤モデルとしては,これまでで最大である。
従来のViT-L/8 MAEと比較して, 遺伝的摂動の線形分離性は60%向上した。
論文 参考訳(メタデータ) (2024-11-04T20:09:51Z) - Multimodal Large Language Models for Bioimage Analysis [39.120941702559726]
MLLM(Multimodal Large Language Models)は、理解、分析、推論、一般化など、創発的な能力を示す。
これらの能力により、MLLMは生物学的画像や様々なモダリティによって得られたデータから複雑な情報を抽出することを約束する。
MLLMの開発は、生物学研究における人間の研究者を増強するためのインテリジェントアシスタントやエージェントとしての役割において、公約が増していることを示している。
論文 参考訳(メタデータ) (2024-07-29T08:21:25Z) - Weakly Supervised Set-Consistency Learning Improves Morphological Profiling of Single-Cell Images [0.6491172192043603]
単一セル画像における摂動効果の学習表現を改善するために,設定レベルの整合性学習アルゴリズムset-DINOを提案する。
5000以上の遺伝的摂動を伴う大規模光ポーリングスクリーニングデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-06-08T00:53:30Z) - Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology [2.7280901660033643]
本研究は、弱教師付き分類器と自己教師付きマスク付きオートエンコーダ(MAE)のスケーリング特性について検討する。
以上の結果から,ViTをベースとしたMAEは,様々なタスクにおいて弱い教師付き分類器よりも優れており,公的なデータベースから得られた既知の生物学的関係を思い出すと,11.5%の相対的な改善が達成されることがわかった。
我々は、異なる数のチャネルと順序の画像を推論時に入力できる新しいチャネルに依存しないMAEアーキテクチャ(CA-MAE)を開発した。
論文 参考訳(メタデータ) (2024-04-16T02:42:06Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from
fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。