Fugu-MT 論文翻訳(概要): The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

論文の概要: The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

arxiv url: http://arxiv.org/abs/2603.28387v1
Date: Mon, 30 Mar 2026 12:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.402415
Title: The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation
Title（参考訳）: スクフォールド効果 : プロンプト・フラーミングが臨床VLM評価における明らかなマルチモーダル利得をいかに促進させるか
Authors: Doan Nam Long Vu, Simone Balloccu,
Abstract要約: 臨床画像コホートであるtextscFOR2107 と textscOASIS-3 の2値分類により,12個のオープンウェイト視覚言語モデル(VLM)を評価した。これらの条件下では、より小さなVLMは、ニューロイメージングの文脈を導入すると最大58%のF1のゲインを示し、蒸留されたモデルは、桁違いに大きいものと競合するようになる。
参考スコア（独自算出の注目度）: 1.9655003184977389
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Trustworthy clinical AI requires that performance gains reflect genuine evidence integration rather than surface-level artifacts. We evaluate 12 open-weight vision-language models (VLMs) on binary classification across two clinical neuroimaging cohorts, \textsc{FOR2107} (affective disorders) and \textsc{OASIS-3} (cognitive decline). Both datasets come with structural MRI data that carries no reliable individual-level diagnostic signal. Under these conditions, smaller VLMs exhibit gains of up to 58\% F1 upon introduction of neuroimaging context, with distilled models becoming competitive with counterparts an order of magnitude larger. A contrastive confidence analysis reveals that merely \emph{mentioning} MRI availability in the task prompt accounts for 70-80\% of this shift, independent of whether imaging data is present, a domain-specific instance of modality collapse we term the \emph{scaffold effect}. Expert evaluation reveals fabrication of neuroimaging-grounded justifications across all conditions, and preference alignment, while eliminating MRI-referencing behavior, collapses both conditions toward random baseline. Our findings demonstrate that surface evaluations are inadequate indicators of multimodal reasoning, with direct implications for the deployment of VLMs in clinical settings.
Abstract（参考訳）: 信頼できる臨床AIは、パフォーマンスの向上は表面レベルのアーティファクトではなく、真のエビデンスの統合を反映する必要がある。 12種類のオープンウェイト視覚言語モデル (VLM) を2種類の臨床神経画像コホート, \textsc{FOR2107} と \textsc{OASIS-3} に分けて評価した。どちらのデータセットも、信頼性の高い個別レベルの診断信号を持たない構造的なMRIデータを備えている。これらの条件下では、より小さなVLMは、ニューロイメージングの文脈を導入すると、最大58 % F1のゲインを示し、蒸留されたモデルは、それよりも桁違いに大きいものと競合するようになる。対照的な信頼分析により、タスクにおけるMRIの可用性は、画像データが存在するかどうかに関わらず、このシフトの70-80\%を占めることが示され、そこでは、モダリティ崩壊のドメイン固有の例である \emph{scaffold effect} を呼ぶ。専門家による評価では、すべての条件にまたがる神経画像的正当性の作成と、MRI参照の振る舞いを排除しつつ、両方の条件をランダムなベースラインに向けて崩壊させることが示されている。以上の結果より, 表面評価はマルチモーダル推論の指標として不十分であり, VLMの臨床的展開に直接的な意味があることが示唆された。

関連論文リスト

Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-21T07:47:37Z)
Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文参考訳（メタデータ） (2026-02-27T04:49:01Z)
Automated Lesion Segmentation of Stroke MRI Using nnU-Net: A Comprehensive External Validation Across Acute and Chronic Lesions [0.0]
複数のMRIデータセットにまたがるnU-Netフレームワークを用いて脳卒中病変のセグメンテーションを評価する。脳卒中期にはモデルが頑健な一般化を示し, セグメンテーション精度はレータ間信頼性に近づいた。急性期において、DWIで訓練されたモデルはFLAIRベースのモデルより一貫して優れており、マルチモーダルの組み合わせからわずかに利益を得ただけだった。慢性期脳卒中では、トレーニングセットのサイズが増加し、数百件以上のリターンが低下した。
論文参考訳（メタデータ） (2026-01-13T16:29:20Z)
Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models [43.46006663176283]
本研究は,種々の摂動が医療MLLMに与える影響を系統的に分析する。視覚的モダリティのために,MLLMの視覚エンコーダを利用してノイズパターンを識別する摂動認識デノナイジング(PDC)を提案する。そこで本研究では,MLLMの自己評価機能を活用し,ノイズの多いテキストを精査するセルフ・インスタンス・マルチエージェント・システム(SMS)を設計する。
論文参考訳（メタデータ） (2025-12-26T10:23:30Z)
Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。 MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文参考訳（メタデータ） (2025-11-19T20:11:49Z)
Multimodal Carotid Risk Stratification with Large Vision-Language Models: Benchmarking, Fine-Tuning, and Clinical Insights [3.5469990240092373]
本研究では,マルチモーダル頸動脈プラーク評価のための最先端および最近の大規模視覚言語モデル (LVLM) の可能性について検討した。インタビュースタイルの質問シーケンスを通じて現実的な診断シナリオをシミュレートするフレームワークを提案する。実験の結果、LVLMが非常に強力であるとしても、すべてのLVLMが画像のモダリティと解剖を正確に識別できるわけではないことが判明した。
論文参考訳（メタデータ） (2025-10-03T11:48:12Z)
Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文参考訳（メタデータ） (2025-09-26T12:20:01Z)
Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文参考訳（メタデータ） (2025-09-26T07:02:22Z)
Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文参考訳（メタデータ） (2025-05-12T01:57:25Z)
A Demographic-Conditioned Variational Autoencoder for fMRI Distribution Sampling and Removal of Confounds [49.34500499203579]
変動型オートエンコーダ(VAE)ベースのモデルであるDemoVAEを作成し、人口統計学から fMRI の特徴を推定する。ユーザが供給する人口動態に基づいて,高品質な合成fMRIデータを生成する。
論文参考訳（メタデータ） (2024-05-13T17:49:20Z)
Assessment of Data Consistency through Cascades of Independently Recurrent Inference Machines for fast and robust accelerated MRI reconstruction [0.0]
データ一貫性(DC)は多モードデータの一般化と病理診断における堅牢性に不可欠である。本研究は、非ループ最適化によりDCを評価するために、CIRIM (Independently Recurrent Inference Machines) のカスケードを提案する。 E2EVNは直流を明示的に定式化する必要があるのに対し、直流を暗黙的に強制する場合はCIRIMが最善であることを示す。
論文参考訳（メタデータ） (2021-11-30T15:34:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。