論文の概要: Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training
- arxiv url: http://arxiv.org/abs/2601.23220v1
- Date: Fri, 30 Jan 2026 17:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.591333
- Title: Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training
- Title(参考訳): Med-Scout:Geometry-Aware RL Post-TrainingによるMLLMsの医学的知覚における幾何学的盲点のキュリング
- Authors: Anglin Liu, Ruichao Chen, Yi Lu, Hongxia Xu, Jintai Chen,
- Abstract要約: 最先端のMLLMでさえ、視覚障害(幾何学的盲点)に悩まされている。
本稿では,強化学習(Reinforcement Learning, RL)を通じて,この盲点を「修正」する新しいフレームワークであるMed-Scoutを紹介する。
大規模な評価の結果,Med-Scoutは幾何学的盲点を著しく軽減し,我々のベンチマークではプロプライエタリでオープンソースのMLLMを40%以上上回った。
- 参考スコア(独自算出の注目度): 13.717113849491168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent Multimodal Large Language Models (MLLMs)' linguistic prowess in medical diagnosis, we find even state-of-the-art MLLMs suffer from a critical perceptual deficit: geometric blindness. This failure to ground outputs in objective geometric constraints leads to plausible yet factually incorrect hallucinations, rooted in training paradigms that prioritize linguistic fluency over geometric fidelity. This paper introduces Med-Scout, a novel framework that "cures" this blindness via Reinforcement Learning (RL) that leverages the intrinsic geometric logic latent within unlabeled medical images. Instead of relying on costly expert annotations, Med-Scout derives verifiable supervision signals through three strategic proxy tasks: Hierarchical Scale Localization, Topological Jigsaw Reconstruction, and Anomaly Consistency Detection. To rigorously quantify this deficit, we present Med-Scout-Bench, a new benchmark specifically designed to evaluate geometric perception. Extensive evaluations show that Med-Scout significantly mitigates geometric blindness, outperforming leading proprietary and open-source MLLMs by over 40% on our benchmark. Furthermore, this enhanced geometric perception generalizes to broader medical understanding, achieving superior results on radiological and comprehensive medical VQA tasks.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の医療診断における言語能力にもかかわらず、最先端のMLLMでさえ重大な知覚障害(幾何学的盲点)に悩まされている。
客観的な幾何学的制約でアウトプットを基礎づけることの失敗は、幾何学的忠実性よりも言語流布を優先する訓練パラダイムに根ざした、もっともらしいが事実的に誤った幻覚をもたらす。
本稿では,この盲点をRL(Reinforcement Learning, 強化学習)によって再現する新しいフレームワークであるMed-Scoutを紹介する。
高価な専門家のアノテーションに頼る代わりに、Med-Scoutは階層的スケールローカライゼーション、トポロジカルJigsaw再構成、異常一貫性検出という3つの戦略的プロキシタスクを通じて、検証可能な監視シグナルを導出する。
この欠点を厳密に定量化するために、幾何学的知覚を評価するために設計された新しいベンチマークであるMed-Scout-Benchを提案する。
大規模な評価の結果,Med-Scoutは幾何学的盲点を著しく軽減し,プロプライエタリでオープンソースのMLLMを40%以上上回った。
さらに、この拡張された幾何学的知覚は、より広範な医学的理解に一般化し、放射線学的および総合的な医学的VQAタスクにおいて優れた結果を得る。
関連論文リスト
- M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning [76.27615570807774]
幾何学的推論のような視覚集約的なタスクでは、MLLMは幻覚を頻繁に起こし、不正確な推論をもたらす。
本稿では,まず幾何学的構造の視覚的知覚を高め,推論能力を育成する2段階のRLトレーニングフレームワークを提案する。
この2段階学習は, 直接推論学習法と比較して, 幾何学的推論を9.7%改善し, 幾何学的問題解決を9.1%改善する。
論文 参考訳(メタデータ) (2025-09-22T07:28:09Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedHEval: Benchmarking Hallucinations and Mitigation Strategies in Medical Large Vision-Language Models [37.78272983522441]
医療分野においてLVLM(Large Vision Language Models)の重要性が高まっている。
MedHEvalは、Med-LVLMの幻覚と緩和戦略を体系的に評価する新しいベンチマークである。
我々は,11個のLVLM(Med-LVLM)を用いて実験を行い,7つの最先端の幻覚緩和技術を評価した。
論文 参考訳(メタデータ) (2025-03-04T00:40:09Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models [25.413601452403213]
LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。
LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T22:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。