論文の概要: Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.00148v1
- Date: Tue, 24 Feb 2026 23:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.057927
- Title: Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models
- Title(参考訳): メカニカルガイド付きLoRAは医用視覚言語モデルにおけるパラフレーズ一貫性を改善する
- Authors: Binesh Sadanandan, Vahid Behzadan,
- Abstract要約: 医療ビジョンランゲージモデルでは、同じ臨床的疑問の言い換えに対して、異なるイエスまたはノーの回答を与えることができる。
PSF-Med Sadanandan と Behzadan (2025) を用いて MedGemma-4B でこれを研究した。
パラフレーズ整合性と解答精度のバランスをとるために,ローランド適応 (LoRA) アダプタを併用して微調整する。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision-Language Models can give different yes or no answers to rephrasings of the same clinical question. We study this in MedGemma-4B using PSF-Med Sadanandan and Behzadan (2025), which provides paraphrase pairs for systematic consistency evaluation on medical VQA. On MIMIC-CXR binary questions (n = 158), the baseline flip rate is 14.6% and mean margin difference is 1.63 logits. We validate that Gemma Scope 2 Sparse Autoencoders (SAEs) transfer to MedGemma activations, achieving R2 ~= 0.997 on both medical and general text (n = 100 prompts each, p < 0.001 for exceeding a 0.95 threshold). We then fine-tune Low-Rank Adaptation (LoRA) adapters with a combined loss that balances paraphrase consistency with answer accuracy. This combined approach prevents mode collapse that occurs with pure consistency training while reducing flip rate from 14.6% to 4.4% (p = 0.002, two-proportion z-test) and margin difference from 1.63 to 0.33 (79.5% reduction). Accuracy remains stable at 84.2% baseline versus 82.3% after training (-1.9pp, not significant). On PadChest Balanced (n = 250), flip rate drops from 13.6% to 7.8%, mean margin difference drops from 1.08 to 0.35 (67.9% reduction), and accuracy increases from 66.4% to 69.4%. A layer-range ablation shows that early layers reduce margin differences more than mechanistically selected middle layers.
- Abstract(参考訳): 医療ビジョンランゲージモデルでは、同じ臨床的疑問の言い換えに対して、異なるイエスまたはノーの回答を与えることができる。
PSF-Med Sadanandan と Behzadan (2025) を用いて MedGemma-4B でこれを研究した。
MIMIC-CXRバイナリ質問(n = 158)では、ベースラインフリップ率は14.6%、平均マージン差は1.63ロジットである。
Gemma Scope 2 Sparse Autoencoders (SAEs) が MedGemma アクティベーションに移行し,医療用テキストと一般用テキストの両方で R2 ~= 0.997 を達成する(n = 100 のプロンプト,p < 0.001 は 0.95 を超える)。
次に、パラフレーズ一貫性と解答精度のバランスをとるために、LoRAアダプタを併用して微調整する。
この組み合わせのアプローチは、純粋な一貫性トレーニングで発生するモード崩壊を防止し、フリップレートを14.6%から4.4%(p = 0.002, 2-proportion z-test)、マージン差を1.63から0.33(79.5%)に下げる。
ベースラインは84.2%、トレーニング後の82.3%(-1.9pp、有意ではない)で安定している。
PadChest Balanced (n = 250)では、フリップレートは13.6%から7.8%に低下し、マージン差は1.08から0.35に減少し(67.9%)、精度は66.4%から69.4%に向上した。
層幅アブレーションは、初期層が機械的に選択された中間層よりもマージン差を減少させることを示している。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Decomposing Physician Disagreement in HealthBench [0.0687531213383208]
医療用AI評価データセット「HealthBench」で医師の意見の相違を分解し、変動がどこにあるのか、観察可能な特徴が説明できるのかを理解する。
81.8%のケースレベル残基はHealthBenchのメタデータラベルによって減少しない。
診断は、完了品質の逆Uに従っており、医師が明確な良し悪しのアウトプットについて合意するが、境界線のケースでは分割される。
論文 参考訳(メタデータ) (2026-02-26T08:47:42Z) - PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models [2.064612766965483]
19,748個の胸部X線を約92,000個のパラフレーズと組み合わせたベンチマークであるParaphrase Sensitivity Failure (PSF)-Medを紹介する。
同じ画像のイエス/ノーフリップを測定し、フリップ率を8%から58%に設定する。
我々は、フレーミングと相関し、決定マージンシフトを予測するスパース機能を第17層で特定する。
論文 参考訳(メタデータ) (2026-02-24T23:03:50Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - AMGFormer: Adaptive Multi-Granular Transformer for Brain Tumor Segmentation with Missing Modalities [6.461582089537306]
AMGFormerを提案し、3つの相乗的モジュールによる安定性を著しく向上させる。
BraTS 2018では、89.33%のWT、82.70%のTC、67.23%のET Diceスコアが15のモードの組み合わせで0.5%のばらつきで達成されている。
単一モダリティETセグメンテーションは、最先端手法よりも40~81%改善している。
論文 参考訳(メタデータ) (2026-01-27T08:29:02Z) - A Novel Hybrid Deep Learning and Chaotic Dynamics Approach for Thyroid Cancer Classification [3.1331787430863485]
本稿では,適応畳み込みニューラルネットワーク(CNN)とCohen-Daubechies-Feauveau(CDF9/7)ウェーブレットを結合するインテリジェントな分類法を提案する。
DDTI甲状腺超音波画像(n = 1,638画像,819悪性/819良性)を5倍のクロスバリデーションを用いて評価した。
提案手法は98.17%の精度、98.76%の感度、97.58%の特異性、97.55%のF1スコア、AUCは0.9912である。
論文 参考訳(メタデータ) (2025-09-28T16:46:31Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - AI-driven software for automated quantification of skeletal metastases and treatment response evaluation using Whole-Body Diffusion-Weighted MRI (WB-DWI) in Advanced Prostate Cancer [0.27141618085306923]
全Body Diffusion-Weighted MRI (WB-DWI) はTDV (Ttal Diffusion Volume) とgADC (Global Apparent Diffusion Coefficient) の2つの応答バイオマーカーを提供する
手指脱線病変からのTDVおよびgADCの術後変化の追跡は困難であり、読取者間の変動が増大する。
このプロセスを自動化するためのソフトウェアを開発した。核となる技術は、(i)骨を分離するための骨格確率マップを生成する弱教師付き残留U-Netモデル、(ii)WB-DWI強度正規化のための統計フレームワーク、(iii)出力を処理する浅い畳み込みニューラルネットワークである。
論文 参考訳(メタデータ) (2025-05-13T22:57:49Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Corneal endothelium assessment in specular microscopy images with Fuchs'
dystrophy via deep regression of signed distance maps [48.498376125522114]
本稿では,UNetをベースとしたセグメンテーション手法を提案する。
これは、フックスのジストロフィーの全度にわたって、信頼できるCE形態計測と腸骨同定を実現する。
論文 参考訳(メタデータ) (2022-10-13T15:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。