論文の概要: EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.20146v1
- Date: Wed, 24 Sep 2025 14:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.839877
- Title: EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models
- Title(参考訳): EchoBench: 医療用大視野モデルにおけるサイコファージのベンチマーク
- Authors: Botai Yuan, Yutian Zhou, Yingjie Wang, Fushuo Huo, Yongcheng Jing, Li Shen, Ying Wei, Zhiqi Shen, Ziwei Liu, Tianwei Zhang, Jie Yang, Dacheng Tao,
- Abstract要約: 医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
- 参考スコア(独自算出の注目度): 82.43729208063468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent benchmarks for medical Large Vision-Language Models (LVLMs) emphasize leaderboard accuracy, overlooking reliability and safety. We study sycophancy -- models' tendency to uncritically echo user-provided information -- in high-stakes clinical settings. We introduce EchoBench, a benchmark to systematically evaluate sycophancy in medical LVLMs. It contains 2,122 images across 18 departments and 20 modalities with 90 prompts that simulate biased inputs from patients, medical students, and physicians. We evaluate medical-specific, open-source, and proprietary LVLMs. All exhibit substantial sycophancy; the best proprietary model (Claude 3.7 Sonnet) still shows 45.98% sycophancy, and GPT-4.1 reaches 59.15%. Many medical-specific models exceed 95% sycophancy despite only moderate accuracy. Fine-grained analyses by bias type, department, perceptual granularity, and modality identify factors that increase susceptibility. We further show that higher data quality/diversity and stronger domain knowledge reduce sycophancy without harming unbiased accuracy. EchoBench also serves as a testbed for mitigation: simple prompt-level interventions (negative prompting, one-shot, few-shot) produce consistent reductions and motivate training- and decoding-time strategies. Our findings highlight the need for robust evaluation beyond accuracy and provide actionable guidance toward safer, more trustworthy medical LVLMs.
- Abstract(参考訳): 医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
患者が提供する情報を非批判的に反響させる傾向のモデルである梅毒症を、高レベルの臨床環境で研究する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
18の部門に2,122枚の画像があり、90のプロンプトで患者、医学生、医師からの偏見入力をシミュレートしている。
医用、オープンソース、プロプライエタリなLVLMを評価した。
いずれもかなりのサイコファシーを示しており、最も優れたプロプライエタリモデル(Claude 3.7 Sonnet)は45.98%のサイコファシーを示し、GPT-4.1は59.15%である。
多くの医療特化モデルは、適度な精度しか持たないにもかかわらず、95%の薬効を超えている。
バイアスタイプ、部門、知覚的粒度、モダリティによるきめ細かい分析は、感受性を高める要因を特定する。
さらに、高いデータ品質/多様性と強力なドメイン知識が、不偏の精度を損なうことなく、梅毒を減少させることを示す。
単純なプロンプトレベルの介入(負のプロンプト、ワンショット、少数ショット)は、一貫したリダクションを生成し、トレーニングとデコーディングの戦略を動機付けます。
本研究は,より安全で信頼性の高い医療用LVLMに対して,精度以上の堅牢な評価の必要性を強調した。
関連論文リスト
- Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - PRECISE-AS: Personalized Reinforcement Learning for Efficient Point-of-Care Echocardiography in Aortic Stenosis Diagnosis [6.276251898178271]
大動脈狭窄 (Aortic stenosis, AS) は、大動脈弁が狭くなり、血流が低下することによる生命維持状態である。
心エコー検査(echo)へのアクセスは、特に農村部や低地部において、資源の制約により制限されることが多い。
本稿では,患者の最も情報性の高いエコー映像を動的に選択する強化学習(RL)によるアクティブビデオ取得フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T23:47:43Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - A Method for the Architecture of a Medical Vertical Large Language Model Based on Deepseek R1 [6.589206192038366]
本稿では,知識獲得,モデル圧縮,計算強化といった課題に対処する,軽量な医療用大規模言語モデルアーキテクチャを提案する。
我々は,Low-Rank Adaptation (LoRA) を用いて,DeepSeek-R1-Distill-70BからDeepSeek-R1-Distill-7Bへの知識伝達パイプラインを設計した。
提案手法では,USMLEでは92.1%の精度を維持しながら,メモリ消費を64.7%削減し,12.4%のレイテンシをベースライン推論モデルと比較した。
論文 参考訳(メタデータ) (2025-04-25T14:28:29Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - Self-supervised contrastive learning of echocardiogram videos enables
label-efficient cardiac disease diagnosis [48.64462717254158]
心エコービデオを用いた自己教師型コントラスト学習手法であるエコーCLRを開発した。
左室肥大症 (LVH) と大動脈狭窄症 (AS) の分類成績は,EchoCLR の訓練により有意に改善した。
EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。
論文 参考訳(メタデータ) (2022-07-23T19:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。