論文の概要: Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study
- arxiv url: http://arxiv.org/abs/2508.20188v1
- Date: Wed, 27 Aug 2025 18:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.665672
- Title: Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study
- Title(参考訳): 定量的なスキン属性を持つ接地型マルチモーダル大言語モデル:検索研究
- Authors: Max Torop, Masih Eskandar, Nicholas Kurtansky, Jinyang Liu, Jochen Weber, Octavia Camps, Veronica Rotemberg, Jennifer Dy, Kivanc Kose,
- Abstract要約: 本稿では,MLLM(Multimodal Large Language Models)と量的属性利用という,有望な2つのアプローチの組み合わせについて検討する。
MLLMは、対話型フォーマットによる自然言語の診断の推論を提供する、解釈可能性の向上のための潜在的な道を提供する。
MLLM埋め込み空間は、画像からそれらの値を予測する微調整により、そのような属性でグラウンド化できることを示す。
- 参考スコア(独自算出の注目度): 2.1206523992812545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence models have demonstrated significant success in diagnosing skin diseases, including cancer, showing the potential to assist clinicians in their analysis. However, the interpretability of model predictions must be significantly improved before they can be used in practice. To this end, we explore the combination of two promising approaches: Multimodal Large Language Models (MLLMs) and quantitative attribute usage. MLLMs offer a potential avenue for increased interpretability, providing reasoning for diagnosis in natural language through an interactive format. Separately, a number of quantitative attributes that are related to lesion appearance (e.g., lesion area) have recently been found predictive of malignancy with high accuracy. Predictions grounded as a function of such concepts have the potential for improved interpretability. We provide evidence that MLLM embedding spaces can be grounded in such attributes, through fine-tuning to predict their values from images. Concretely, we evaluate this grounding in the embedding space through an attribute-specific content-based image retrieval case study using the SLICE-3D dataset.
- Abstract(参考訳): 人工知能モデルは、がんを含む皮膚疾患の診断において大きな成功を示し、その分析で臨床医を支援する可能性を示している。
しかし、モデル予測の解釈性は、実際に使用される前に大幅に改善されなければならない。
そこで本研究では,MLLM(Multimodal Large Language Models)と量的属性利用の2つの将来的アプローチについて検討する。
MLLMは、対話型フォーマットによる自然言語の診断の推論を提供する、解釈可能性の向上のための潜在的な道を提供する。
最近, 悪性度を高い精度で予測する指標として, 病変の出現(例, 病変領域)に関連するいくつかの量的属性が発見されている。
このような概念の関数として根ざした予測は、解釈可能性を改善する可能性がある。
MLLM埋め込み空間は、画像からそれらの値を予測する微調整により、そのような属性でグラウンド化できることを示す。
具体的には、SLICE-3Dデータセットを用いた属性固有のコンテンツに基づく画像検索ケーススタディにより、埋め込み空間におけるこの基礎性を評価する。
関連論文リスト
- ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Mammo-SAE: Interpreting Breast Cancer Concept Learning with Sparse Autoencoders [7.23389716633927]
医療画像などの高分解能領域では、解釈可能性が重要である。
Sparse Autoencoder (SAE) を用いた乳房画像の解釈性について紹介する。
論文 参考訳(メタデータ) (2025-07-21T03:59:21Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Explainable Diagnosis Prediction through Neuro-Symbolic Integration [11.842565087408449]
我々は、診断予測のための説明可能なモデルを開発するために、神経象徴的手法、特に論理ニューラルネットワーク(LNN)を用いている。
私たちのモデル、特に$M_textmulti-pathway$と$M_textcomprehensive$は、従来のモデルよりも優れたパフォーマンスを示します。
これらの知見は、医療AI応用における精度と説明可能性のギャップを埋める神経象徴的アプローチの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-01T22:47:24Z) - Generative causal testing to bridge data-driven models and scientific theories in language neuroscience [82.995061475971]
脳における言語選択性の簡潔な説明を生成するためのフレームワークである生成因果テスト(GCT)を提案する。
GCTは機能的選択性に類似した脳領域の細粒度の違いを識別できることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - Integrating Expert ODEs into Neural ODEs: Pharmacology and Disease
Progression [71.7560927415706]
潜在ハイブリッドモデル(LHM)は、専門家が設計したODEのシステムと機械学習したNeural ODEを統合し、システムのダイナミクスを完全に記述する。
新型コロナウイルス患者のLHMと実世界の集中治療データについて検討した。
論文 参考訳(メタデータ) (2021-06-05T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。