論文の概要: Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning
- arxiv url: http://arxiv.org/abs/2506.11166v1
- Date: Wed, 11 Jun 2025 22:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.528555
- Title: Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning
- Title(参考訳): ビジュアルランゲージ推論によるゼロショット診断のためのテストタイムスケーリング
- Authors: Ji Young Byun, Young-Jin Park, Navid Azizan, Rama Chellappa,
- Abstract要約: 視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
- 参考スコア(独自算出の注目度): 37.37330596550283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a cornerstone of patient care, clinical decision-making significantly influences patient outcomes and can be enhanced by large language models (LLMs). Although LLMs have demonstrated remarkable performance, their application to visual question answering in medical imaging, particularly for reasoning-based diagnosis, remains largely unexplored. Furthermore, supervised fine-tuning for reasoning tasks is largely impractical due to limited data availability and high annotation costs. In this work, we introduce a zero-shot framework for reliable medical image diagnosis that enhances the reasoning capabilities of LLMs in clinical settings through test-time scaling. Given a medical image and a textual prompt, a vision-language model processes a medical image along with a corresponding textual prompt to generate multiple descriptions or interpretations of visual features. These interpretations are then fed to an LLM, where a test-time scaling strategy consolidates multiple candidate outputs into a reliable final diagnosis. We evaluate our approach across various medical imaging modalities -- including radiology, ophthalmology, and histopathology -- and demonstrate that the proposed test-time scaling strategy enhances diagnostic accuracy for both our and baseline methods. Additionally, we provide an empirical analysis showing that the proposed approach, which allows unbiased prompting in the first stage, improves the reliability of LLM-generated diagnoses and enhances classification accuracy.
- Abstract(参考訳): 患者医療の基盤として、臨床意思決定は患者の成果に大きな影響を与え、大きな言語モデル(LLM)によって強化される可能性がある。
LLMは顕著な性能を示したが、医用画像、特に推論に基づく診断における視覚的質問応答への応用は、いまだ研究されていない。
さらに、推論タスクの教師付き微調整は、データ可用性の制限と高いアノテーションコストのため、ほとんど実行不可能である。
本研究では, 臨床現場におけるLCMの推論能力を高めるため, 信頼性の高い画像診断のためのゼロショットフレームワークを提案する。
医用画像とテキストプロンプトが与えられた場合、視覚言語モデルは対応するテキストプロンプトと共に医用画像を処理し、視覚的特徴の複数の記述や解釈を生成する。
これらの解釈はLSMに送られ、テストタイムスケーリング戦略は複数の候補出力を信頼性のある最終診断に集約する。
我々は, 放射線学, 眼科, 病理学など, 様々な医用画像モダリティにまたがるアプローチを評価するとともに, 提案したテストタイムスケーリング戦略が診断精度を高めることを実証した。
さらに,本提案手法は,第1段階の未バイアスプロンプトを許容し,LCM生成診断の信頼性を向上し,分類精度を向上することを示す実験的検討を行った。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis [37.11302829771659]
大規模視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、病理画像解析の効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
OmniPathは診断精度と効率において既存の方法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - Insight: A Multi-Modal Diagnostic Pipeline using LLMs for Ocular Surface Disease Diagnosis [17.970320199904084]
眼表面疾患の診断に大規模言語モデル(LLM)を用いた,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。
これらの課題に対処するために,眼表面疾患の診断に大規模言語モデル(LLM)を用いることで,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。
論文 参考訳(メタデータ) (2024-10-01T00:23:05Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - Deciphering Diagnoses: How Large Language Models Explanations Influence
Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。
本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文 参考訳(メタデータ) (2023-10-03T00:08:23Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。