論文の概要: In-Context Adaptation of VLMs for Few-Shot Cell Detection in Optical Microscopy
- arxiv url: http://arxiv.org/abs/2511.05565v1
- Date: Tue, 04 Nov 2025 06:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.447975
- Title: In-Context Adaptation of VLMs for Few-Shot Cell Detection in Optical Microscopy
- Title(参考訳): 光顕微鏡におけるFew-Shot細胞検出のためのVLMのその場適応
- Authors: Shreyan Ganguly, Angona Biswas, Jaydeep Rade, Md Hasibul Hasan Hasib, Nabila Masud, Nitish Singla, Abhipsa Dash, Ushashi Bhattacharjee, Aditya Balu, Anwesha Sarkar, Adarsh Krishnamurthy, Soumik Sarkar,
- Abstract要約: ファンデーションビジョン言語モデル(VLM)は自然画像に優れるが、バイオメディカル・マイクロスコピーの実用性は乏しい。
In-context Learningに特化してキュレートされた252イメージのキュレートされたコレクションであるMicro-ODベンチマークを導入する。
少ない条件下で8つのVLMを評価し,暗黙の試験時間推論トークンと変種を比較した。
- 参考スコア(独自算出の注目度): 8.417669097327986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation vision-language models (VLMs) excel on natural images, but their utility for biomedical microscopy remains underexplored. In this paper, we investigate how in-context learning enables state-of-the-art VLMs to perform few-shot object detection when large annotated datasets are unavailable, as is often the case with microscopic images. We introduce the Micro-OD benchmark, a curated collection of 252 images specifically curated for in-context learning, with bounding-box annotations spanning 11 cell types across four sources, including two in-lab expert-annotated sets. We systematically evaluate eight VLMs under few-shot conditions and compare variants with and without implicit test-time reasoning tokens. We further implement a hybrid Few-Shot Object Detection (FSOD) pipeline that combines a detection head with a VLM-based few-shot classifier, which enhances the few-shot performance of recent VLMs on our benchmark. Across datasets, we observe that zero-shot performance is weak due to the domain gap; however, few-shot support consistently improves detection, with marginal gains achieved after six shots. We observe that models with reasoning tokens are more effective for end-to-end localization, whereas simpler variants are more suitable for classifying pre-localized crops. Our results highlight in-context adaptation as a practical path for microscopy, and our benchmark provides a reproducible testbed for advancing open-vocabulary detection in biomedical imaging.
- Abstract(参考訳): ファンデーションビジョン言語モデル(VLM)は自然画像に優れるが、バイオメディカル・マイクロスコピーの実用性は乏しい。
本稿では,大容量のアノテートデータセットが利用できない場合,テキスト内学習によって最先端のVLMが,顕微鏡画像の場合と同様に,少数ショットのオブジェクト検出を実現する方法について検討する。
In-lab expert-annotated setを含む4つのソースにまたがる11の細胞タイプにまたがるバウンディングボックスアノテーションを備えた、インコンテキスト学習用に特別にキュレートされた252のイメージの収集であるMicro-ODベンチマークを紹介した。
少ない条件下で8つのVLMを体系的に評価し,暗黙の試験時間推論トークンと変種を比較した。
我々はさらに、検出ヘッドとVLMに基づく複数ショット分類器を組み合わせたハイブリッドFew-Shot Object Detection (FSOD)パイプラインを実装し、最新のVLMの性能を向上させる。
データセット全体にわたって、ドメインギャップによるゼロショット性能の低下が観察されるが、少数ショットのサポートは6ショット後に限界ゲインを達成して、検出を継続的に改善する。
推論トークンを持つモデルはエンドツーエンドのローカライズに有効であるのに対し、より単純な変種はプリローカライズされた作物を分類するのにより適している。
以上の結果から,本ベンチマークは生医学的画像診断におけるオープンボキャブラリ検出を促進するための再現性テストベッドを提供する。
関連論文リスト
- High-Throughput Low-Cost Segmentation of Brightfield Microscopy Live Cell Images [3.175346985850522]
本研究は,光電場顕微鏡で観察した無残な生細胞のセグメンテーションに焦点を当てた。
冷凍エンコーダの比較分析を取り入れた低コストCNNパイプラインを開発した。
このモデルは、多様な生きた細胞変異を特徴とする公開データセットで検証された。
論文 参考訳(メタデータ) (2025-08-17T22:05:58Z) - DiffKillR: Killing and Recreating Diffeomorphisms for Cell Annotation in Dense Microscopy Images [105.46086313858062]
DiffKillRは、アーチェタイプマッチングと画像登録タスクの組み合わせとして、セルアノテーションを再構成する新しいフレームワークである。
DiffKillRは、大規模な顕微鏡画像間でアノテーションを効率よく伝播し、広範囲な手動ラベリングの必要性を減らす。
我々はDiffKillRの理論的性質について論じ、それを3つの顕微鏡タスクで検証し、既存の教師付き・半教師なし・教師なしの手法に対する利点を実証する。
論文 参考訳(メタデータ) (2024-10-04T00:38:29Z) - Optimizations of Autoencoders for Analysis and Classification of
Microscopic In Situ Hybridization Images [68.8204255655161]
同様のレベルの遺伝子発現を持つ顕微鏡画像の領域を検出・分類するためのディープラーニングフレームワークを提案する。
分析するデータには教師なし学習モデルが必要です。
論文 参考訳(メタデータ) (2023-04-19T13:45:28Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Exploring Weakly Supervised Semantic Segmentation Ensembles for Medical
Imaging Systems [11.693197342734152]
画像中の医療条件の信頼性の高い分類と検出のための枠組みを提案する。
我々のフレームワークは、まず低しきい値CAMを用いてターゲットオブジェクトを高い確実性でカバーする。
我々は,BRATSでは最大8%,DECATHLONデータセットでは6%の改善ダイススコアを実証した。
論文 参考訳(メタデータ) (2023-03-14T13:31:05Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Modality Attention and Sampling Enables Deep Learning with Heterogeneous
Marker Combinations in Fluorescence Microscopy [5.334932400937323]
蛍光顕微鏡は、色チャネルとして可視化された様々な慎重に選択されたマーカーで染色することで、細胞、細胞ネットワーク、解剖学的ランドマークの詳細な検査を可能にする。
他の視覚応用におけるディープラーニング手法の成功にもかかわらず、蛍光画像解析の可能性はまだ明らかになっていない。
本稿では,モダリティサンプリング戦略と新しいアテンションモジュールを備えたニューラルネットワーク手法であるMarker Sampling and Exciteを提案する。
論文 参考訳(メタデータ) (2020-08-27T21:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。