論文の概要: Evaluating Cell Type Inference in Vision Language Models Under Varying Visual Context
- arxiv url: http://arxiv.org/abs/2506.12683v1
- Date: Sun, 15 Jun 2025 01:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.693874
- Title: Evaluating Cell Type Inference in Vision Language Models Under Varying Visual Context
- Title(参考訳): 視覚環境下での視覚言語モデルにおける細胞型推論の評価
- Authors: Samarth Singhal, Sandeep Singhal,
- Abstract要約: 視覚言語モデル(VLM)は大規模言語モデル(LLM)とともに急速に進歩している。
本研究は,GPT-4.1 や Gemini 2.5 Pro などの卓越したVLMの病理組織像分類機能について検討した。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have rapidly advanced alongside Large Language Models (LLMs). This study evaluates the capabilities of prominent generative VLMs, such as GPT-4.1 and Gemini 2.5 Pro, accessed via APIs, for histopathology image classification tasks, including cell typing. Using diverse datasets from public and private sources, we apply zero-shot and one-shot prompting methods to assess VLM performance, comparing them against custom-trained Convolutional Neural Networks (CNNs). Our findings demonstrate that while one-shot prompting significantly improves VLM performance over zero-shot ($p \approx 1.005 \times 10^{-5}$ based on Kappa scores), these general-purpose VLMs currently underperform supervised CNNs on most tasks. This work underscores both the promise and limitations of applying current VLMs to specialized domains like pathology via in-context learning. All code and instructions for reproducing the study can be accessed from the repository https://www.github.com/a12dongithub/VLMCCE.
- Abstract(参考訳): 視覚言語モデル (VLM) は大規模言語モデル (LLM) と共に急速に進歩している。
本研究は, GPT-4.1 や Gemini 2.5 Pro などの著名な VLM が API を介してアクセスし, 細胞タイピングを含む病理組織学的画像分類タスクに有効であることを示す。
パブリックおよびプライベートソースからの多様なデータセットを用いて、ゼロショットとワンショットプロンプトの手法を用いて、VLMのパフォーマンスを評価し、カスタムトレーニングされた畳み込みニューラルネットワーク(CNN)と比較する。
以上の結果から, ゼロショット(p \approx 1.005 \times 10^{-5}$)よりもワンショットプロンプトによりVLM性能が大幅に向上することが示された。
この研究は、コンテキスト内学習を通じて、病理などの専門分野に現在のVLMを適用するという約束と制限の両方を強調している。
研究を再現するためのコードと指示はすべて、リポジトリ https://www.github.com/a12dongithub/VLMCCEからアクセスすることができる。
関連論文リスト
- Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models [35.79522480146796]
本稿では,100個のマルチモーダルオブジェクト検出データセットの大規模コレクションであるRoboflow100-VLを紹介する。
我々は、ゼロショット、少数ショット、半教師付き、完全教師付き設定で、我々のベンチマークの最先端モデルを評価する。
論文 参考訳(メタデータ) (2025-05-27T01:24:29Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection [21.091101582856183]
本稿では,効率的なゼロショットHOI検出(EZ-HOI)のための新しい学習フレームワークを提案する。
まず、学習可能なプロンプトに対してLarge Language Model(LLM)とVLMガイダンスを導入し、詳細なHOI記述と視覚的セマンティクスを統合して、VLMをHOIタスクに適用する。
我々は,既存の手法と比較して,トレーニング可能なパラメータの10.35%から33.95%しか持たない,さまざまなゼロショット設定における最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:06:29Z) - Boosting Vision-Language Models for Histopathology Classification: Predict all at once [11.644118356081531]
病理組織学における視覚言語モデルへのトランスダクティブアプローチを提案する。
私たちのアプローチは非常に効率的で、ほんの数秒で105ドルのパッチを処理します。
論文 参考訳(メタデータ) (2024-09-03T13:24:12Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。