論文の概要: See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis
- arxiv url: http://arxiv.org/abs/2506.18140v1
- Date: Sun, 22 Jun 2025 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.77051
- Title: See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis
- Title(参考訳): See-in-Pairs:医療診断のための画像ガイド型視線モデルの比較
- Authors: Ruinan Jin, Gexin Huang, Xinwei Shen, Qiong Zhang, Yan Shuo Tan, Xiaoxiao Li,
- Abstract要約: 医用視覚言語モデル(VLM)は、主にシングルイメージまたはシングルシリーズの分析に焦点を当てている。
本報告では, 検索および基準一致参照画像に汎用VLMを付与し, 臨床的にインフォームドされた比較プロンプトを伴い, 診断結果を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 30.3617091206683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical imaging diagnosis presents inherent challenges due to diseases that mimic normal anatomy and exhibit significant inter-patient variability. Clinicians routinely employ comparative reasoning-using reference images from healthy controls or previous patient examinations-to discern subtle yet diagnostically critical abnormalities. However, existing medical vision-language models (VLMs) focus primarily on single-image or single-series analyses and lack explicit mechanisms for comparative reasoning. Conversely, general-purpose VLMs demonstrate strong multi-image comparative reasoning capabilities but lack essential medical-domain knowledge to identify nuanced clinical differences. This work aims to bridge this gap by exploring clinically-inspired comparative analysis within VLMs, leveraging reference images to enhance diagnostic accuracy. Through extensive empirical analysis, we show that providing general-purpose VLMs with query and normative matched reference images, accompanied by clinically-informed comparative prompts, significantly improves diagnostic outcomes compared to single-image baselines, especially after supervised finetuning (SFT). Our contributions highlight the clinical relevance of comparative analysis introduce novel strategies for leveraging reference images in VLMs, empirically demonstrate enhanced performance across multiple medical visual question answering (VQA) tasks, and provide theoretical insights into the efficacy of comparative image analysis in medical diagnosis.
- Abstract(参考訳): 医学的画像診断は、正常な解剖を模倣し、患者間の有意な変動を示す疾患により、固有の課題を呈する。
臨床医は、健康管理や以前の患者の診察で比較推論を用いた基準画像を用いて、微妙ながら診断的に重要な異常を識別する。
しかしながら、既存の医療ビジョン言語モデル(VLM)は、主に単画像または単シリーズの分析に焦点を当てており、比較推論の明確なメカニズムが欠如している。
逆に、汎用的なVLMは、強力なマルチイメージ比較推論能力を示すが、ニュアンスド臨床の違いを特定するために必要な医療領域知識は欠如している。
本研究は, VLMの診断精度を高めるために, 基準画像を利用した臨床応用比較分析により, このギャップを埋めることを目的としている。
広範にわたる経験的分析により,一般的なVLMにクエリと規範的一致した参照画像を提供することで,特に教師付き微調整(SFT)後の単一画像ベースラインと比較して,診断結果が有意に改善することが明らかとなった。
本研究は,VLMにおける参照画像を活用するための新たな戦略を導入し,複数の視覚的質問応答(VQA)タスクにおける性能向上を実証し,医用診断における比較画像解析の有効性に関する理論的知見を提供する。
関連論文リスト
- Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-11T22:23:38Z) - DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis? [1.1094764204428438]
臨床ビジュアル推論のための最初のベンチマークであるDrVD-Benchを提案する。
DrVD-Benchは、ビジュアルエビデンス、推論軌道評価、レポート生成評価の3つのモジュールで構成されている。
本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
論文 参考訳(メタデータ) (2025-05-30T03:33:25Z) - Shifts in Doctors' Eye Movements Between Real and AI-Generated Medical Images [5.969442345531191]
アイトラッキング分析は医療画像において重要な役割を担い、放射線医が臨床症例を視覚的に解釈し診断する方法に関する重要な洞察を提供する。
まず,ササード方向,振幅,関節分布など,様々な眼球運動パターンの分布を測定することで,放射線技師の注意と一致を解析した。
真正(リアル)画像と深層学習(フェイク)画像の視線変化について検討した。
論文 参考訳(メタデータ) (2025-04-21T10:13:59Z) - A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images [11.761590928900358]
眼科領域では,光学コヒーレンス・トモグラフィー(OCT)の報告を解析するために,大言語モデル(MLLM)が研究されている。
データセットは439基の画像と75基のOCT画像からなる。
標準化されたAPIベースのフレームワークを用いて、7つの主流MLLMを評価し、異なる疾患の診断精度に有意なばらつきが認められた。
論文 参考訳(メタデータ) (2025-03-10T09:19:55Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Modeling and Enhancing Low-quality Retinal Fundus Images [167.02325845822276]
低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。
本稿では,グローバルな劣化要因を抑えるために,臨床指向の基盤拡張ネットワーク(cofe-Net)を提案する。
合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。
論文 参考訳(メタデータ) (2020-05-12T08:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。