論文の概要: MultiMedEdit: A Scenario-Aware Benchmark for Evaluating Knowledge Editing in Medical VQA
- arxiv url: http://arxiv.org/abs/2508.07022v1
- Date: Sat, 09 Aug 2025 15:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.659578
- Title: MultiMedEdit: A Scenario-Aware Benchmark for Evaluating Knowledge Editing in Medical VQA
- Title(参考訳): MultiMedEdit: 医療用VQAにおける知識編集評価のためのシナリオ対応ベンチマーク
- Authors: Shengtao Wen, Haodong Chen, Yadong Wang, Zhongying Pan, Xiang Chen, Yu Tian, Bo Qian, Dong Liang, Sheng-Jun Huang,
- Abstract要約: 知識編集(KE)は、大規模な言語モデルにおいて、完全なリトレーニングなしに事実知識を更新するためのスケーラブルなアプローチを提供する。
臨床マルチモーダルタスクにおけるKEの評価に適した最初のベンチマークであるMultiMedEditを提案する。
我々のフレームワークは,タスクの理解と推論の両方にまたがり,3次元計量スイート(信頼性,一般性,局所性)を定義し,パラダイム間比較をサポートする。
- 参考スコア(独自算出の注目度): 31.344312340552495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge editing (KE) provides a scalable approach for updating factual knowledge in large language models without full retraining. While previous studies have demonstrated effectiveness in general domains and medical QA tasks, little attention has been paid to KE in multimodal medical scenarios. Unlike text-only settings, medical KE demands integrating updated knowledge with visual reasoning to support safe and interpretable clinical decisions. To address this gap, we propose MultiMedEdit, the first benchmark tailored to evaluating KE in clinical multimodal tasks. Our framework spans both understanding and reasoning task types, defines a three-dimensional metric suite (reliability, generality, and locality), and supports cross-paradigm comparisons across general and domain-specific models. We conduct extensive experiments under single-editing and lifelong-editing settings. Results suggest that current methods struggle with generalization and long-tail reasoning, particularly in complex clinical workflows. We further present an efficiency analysis (e.g., edit latency, memory footprint), revealing practical trade-offs in real-world deployment across KE paradigms. Overall, MultiMedEdit not only reveals the limitations of current approaches but also provides a solid foundation for developing clinically robust knowledge editing techniques in the future.
- Abstract(参考訳): 知識編集(KE)は、大規模な言語モデルにおいて、完全なリトレーニングなしに事実知識を更新するためのスケーラブルなアプローチを提供する。
これまでの研究では、一般的なドメインや医療QAタスクにおいて効果が示されたが、マルチモーダル医療のシナリオではKEにはほとんど関心が払われていない。
テキストのみの設定とは異なり、医療用KEは、安全かつ解釈可能な臨床判断をサポートするために、更新された知識と視覚的推論を統合することを要求する。
このギャップに対処するために,臨床マルチモーダルタスクにおけるKEの評価に適した最初のベンチマークであるMultiMedEditを提案する。
本フレームワークは,3次元メトリックスイート(信頼性,汎用性,局所性)を定義し,汎用モデルとドメイン固有モデル間のパラダイム間比較をサポートする。
一つの編集環境と生涯編集環境下で広範囲にわたる実験を行う。
以上の結果から,現在の手法は,特に複雑な臨床ワークフローにおいて,一般化とロングテール推論に苦慮していることが示唆された。
さらに、効率分析(例えば、編集レイテンシ、メモリフットプリント)を行い、KEパラダイムをまたいだ実世界のデプロイにおける実践的なトレードオフを明らかにします。
全体として、MultiMedEditは現在のアプローチの限界を明らかにするだけでなく、将来、臨床的に堅牢な知識編集技術を開発するための基盤も提供する。
関連論文リスト
- MedMKEB: A Comprehensive Knowledge Editing Benchmark for Medical Multimodal Large Language Models [5.253788190589279]
MedMKEBは,知識編集の信頼性,汎用性,局所性,可搬性,堅牢性を評価するために設計された,最初の総合的なベンチマークである。
MedMKEBは高品質な医用視覚質問応答データセット上に構築されており、慎重に構築された編集タスクに富んでいる。
ベンチマークの精度と信頼性を確保するために、人間の専門家による検証を組み込んだ。
論文 参考訳(メタデータ) (2025-08-07T07:09:26Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Beyond Memorization: A Rigorous Evaluation Framework for Medical Knowledge Editing [72.8373875453882]
知識編集(KE)は,大規模言語モデル(LLM)の特定の事実を,完全なリトレーニングを必要とせずに更新する,有望なアプローチとして登場した。
本稿では,医療領域における既存のKE手法の有効性を厳格に評価するために,MedEditBenchという新しいフレームワークを提案する。
以上の結果から,現在のKE法は,新たなシナリオへの一般化に失敗し,インジェクションされた情報の表層記憶に留まることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T02:14:43Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Few Exemplar-Based General Medical Image Segmentation via Domain-Aware Selective Adaptation [28.186785488818135]
医用画像のセグメンテーションは、ドメインのギャップ、データモダリティの変化、ドメインの知識や専門家への依存による課題を引き起こす。
本稿では,自然画像で訓練した大規模モデルから学習した一般知識を,対応する医療領域・モダリティに適応させるための,ドメイン対応選択的適応手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T21:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。