論文の概要: Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.00866v1
- Date: Sun, 31 Aug 2025 14:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.436053
- Title: Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation
- Title(参考訳): 一般目的Omnimodelsはスペシャリストと相容れないか? : 医用画像セグメンテーションを事例として
- Authors: Yizhe Zhang, Qiang Chen, Tao Zhou,
- Abstract要約: 多様なデータモダリティを処理できる汎用オムニモデルは、知識集約ドメインの高度に専門化されたモデルと同等に機能する。
本研究では、ドメイン固有のディープラーニングモデルに対して、最先端のオムニモデルのゼロショット性能を解析する比較研究を行う。
以上の結果から,現在のオムニモデルはまだスペシャリストの普遍的な代替にはなっていないが,その特異な強みはスペシャリストモデルとの相補的な役割を示唆している。
- 参考スコア(独自算出の注目度): 14.429221851116814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of powerful, general-purpose omnimodels capable of processing diverse data modalities has raised a critical question: can these ``jack-of-all-trades'' systems perform on par with highly specialized models in knowledge-intensive domains? This work investigates this question within the high-stakes field of medical image segmentation. We conduct a comparative study analyzing the zero-shot performance of a state-of-the-art omnimodel (Gemini 2.5 Pro, the ``Nano Banana'' model) against domain-specific deep learning models on three distinct tasks: polyp (endoscopy), retinal vessel (fundus), and breast tumor segmentation (ultrasound). Our study focuses on performance at the extremes by curating subsets of the ``easiest'' and ``hardest'' cases based on the specialist models' accuracy. Our findings reveal a nuanced and task-dependent landscape. For polyp and breast tumor segmentation, specialist models excel on easy samples, but the omnimodel demonstrates greater robustness on hard samples where specialists fail catastrophically. Conversely, for the fine-grained task of retinal vessel segmentation, the specialist model maintains superior performance across both easy and hard cases. Intriguingly, qualitative analysis suggests omnimodels may possess higher sensitivity, identifying subtle anatomical features missed by human annotators. Our results indicate that while current omnimodels are not yet a universal replacement for specialists, their unique strengths suggest a potential complementary role with specialist models, particularly in enhancing robustness on challenging edge cases.
- Abstract(参考訳): これらの 'jack-of-all-trades'' システムは知識集約ドメインの高度に専門化されたモデルと同等に機能するのか?
本研究は,医療画像セグメンテーションの分野におけるこの問題について考察する。
ポリプ (内視鏡) , 網膜血管 (基礎) , 乳癌 (超音波) の3つの異なる課題において, ドメイン固有の深層学習モデルに対して, 最先端のオムニモデル (Gemini 2.5 Pro, `Nano Banana'' model) のゼロショット性能を解析した。
本研究は,専門モデルの精度に基づいて,<easest' と ``hardest' のケースのサブセットをキュレートすることで,極端におけるパフォーマンスに焦点をあてる。
調査の結果,微妙でタスクに依存した景観が明らかになった。
ポリープと乳房腫瘍のセグメンテーションでは、鑑別が容易であるが、オムニモデルでは、専門医が破滅的に失敗する硬い検体に強い堅牢性を示す。
逆に網膜血管セグメンテーションのきめ細かいタスクでは、専門家モデルは容易かつ難しいケースの両方で優れた性能を維持している。
興味深いことに、定性的な分析は、オムニモデルが高い感度を持ち、人間のアノテーターが見逃した微妙な解剖学的特徴を特定することを示唆している。
以上の結果から,現在のオムニモデルはまだ専門家の普遍的な代替にはなっていないが,その特異な強みは,特に挑戦的エッジケースに対する堅牢性の向上において,専門家モデルと補完的な役割を担っている可能性が示唆された。
関連論文リスト
- Semantic Segmentation of iPS Cells: Case Study on Model Complexity in Biomedical Imaging [0.0]
We show that a carefullyconfiged DeepLabv3 model can achieved high performance in segmenting induced pluripotent stem (iPS) cell colony。
また、小さなデータセットとドメイン固有のエンコーディングの戦略を含むオープンソース実装も提供しています。
論文 参考訳(メタデータ) (2025-07-29T09:05:01Z) - Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design [7.509731425152396]
病理組織学における視覚言語モデル(VLM)の3つの状態の体系的調査と解析を行った。
我々は、ドメインの特異性、解剖学的精度、命令フレーミング、出力制約を体系的に変化させる包括的なプロンプトエンジニアリングフレームワークを開発する。
以上の結果から,正確な解剖学的基準が得られた場合,CONCHモデルが最も精度が高いため,迅速な工学がモデル性能に大きく影響することが示唆された。
論文 参考訳(メタデータ) (2025-04-30T19:01:06Z) - AI-Assisted Colonoscopy: Polyp Detection and Segmentation using Foundation Models [0.10037949839020764]
大腸内視鏡検査では、Deep Learningモデルの助けを借りて、欠落したポリープの80%を検出できた。
この課題に対処できるアルゴリズムの探索において、ファンデーションモデルは有望な候補として浮上する。
ゼロショットまたは少数ショットの学習機能により、広範囲の微調整なしに、新しいデータやタスクへの一般化が容易になる。
ポリプセグメンテーションの基礎モデルを総合的に評価し, 検出と分解の両面から評価した。
論文 参考訳(メタデータ) (2025-03-31T14:20:53Z) - KA$^2$ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation [5.807887214293438]
本稿では,多元的基礎モデルを学習し,複数のエキスパートモデルの協調的な目標に対処することを目的としたアダプティブ・アマルガメーション・ナレッジ・フレームワークを提案する。
特に、まず、各タスクに対してnnUNetベースのエキスパートモデルをトレーニングし、トレーニング済みのSwinUNTERをターゲット基盤モデルとして再利用する。
隠蔽層内の階層的アテンション機構は、すべての専門家の隠蔽層の特徴知識にターゲットモデルの適応的なマージを実現するように設計されている。
論文 参考訳(メタデータ) (2024-10-28T14:49:17Z) - MedMAP: Promoting Incomplete Multi-modal Brain Tumor Segmentation with Alignment [20.358300924109162]
臨床ではMRIの特定のモダリティが欠如している可能性があるため、より困難なシナリオが提示される。
知識蒸留、ドメイン適応、共有潜在空間は一般的に有望な戦略として現れている。
本稿では,事前学習モデルの置換として,係わるモダリティの潜在的特徴を適切に定義された分布アンカーに整合させる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-18T13:16:30Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification
Using Model Ensembles [52.77024349608834]
我々は、DCNNを最先端の顔認識手法であるiResNetとArcFaceに置き換える影響を分析する。
提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2022-11-12T23:28:54Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。