論文の概要: Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training
- arxiv url: http://arxiv.org/abs/2601.23220v1
- Date: Fri, 30 Jan 2026 17:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.591333
- Title: Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training
- Title(参考訳): Med-Scout:Geometry-Aware RL Post-TrainingによるMLLMsの医学的知覚における幾何学的盲点のキュリング
- Authors: Anglin Liu, Ruichao Chen, Yi Lu, Hongxia Xu, Jintai Chen,
- Abstract要約: 最先端のMLLMでさえ、視覚障害(幾何学的盲点)に悩まされている。
本稿では,強化学習(Reinforcement Learning, RL)を通じて,この盲点を「修正」する新しいフレームワークであるMed-Scoutを紹介する。
大規模な評価の結果,Med-Scoutは幾何学的盲点を著しく軽減し,我々のベンチマークではプロプライエタリでオープンソースのMLLMを40%以上上回った。
- 参考スコア(独自算出の注目度): 13.717113849491168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent Multimodal Large Language Models (MLLMs)' linguistic prowess in medical diagnosis, we find even state-of-the-art MLLMs suffer from a critical perceptual deficit: geometric blindness. This failure to ground outputs in objective geometric constraints leads to plausible yet factually incorrect hallucinations, rooted in training paradigms that prioritize linguistic fluency over geometric fidelity. This paper introduces Med-Scout, a novel framework that "cures" this blindness via Reinforcement Learning (RL) that leverages the intrinsic geometric logic latent within unlabeled medical images. Instead of relying on costly expert annotations, Med-Scout derives verifiable supervision signals through three strategic proxy tasks: Hierarchical Scale Localization, Topological Jigsaw Reconstruction, and Anomaly Consistency Detection. To rigorously quantify this deficit, we present Med-Scout-Bench, a new benchmark specifically designed to evaluate geometric perception. Extensive evaluations show that Med-Scout significantly mitigates geometric blindness, outperforming leading proprietary and open-source MLLMs by over 40% on our benchmark. Furthermore, this enhanced geometric perception generalizes to broader medical understanding, achieving superior results on radiological and comprehensive medical VQA tasks.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の医療診断における言語能力にもかかわらず、最先端のMLLMでさえ重大な知覚障害(幾何学的盲点)に悩まされている。
客観的な幾何学的制約でアウトプットを基礎づけることの失敗は、幾何学的忠実性よりも言語流布を優先する訓練パラダイムに根ざした、もっともらしいが事実的に誤った幻覚をもたらす。
本稿では,この盲点をRL(Reinforcement Learning, 強化学習)によって再現する新しいフレームワークであるMed-Scoutを紹介する。
高価な専門家のアノテーションに頼る代わりに、Med-Scoutは階層的スケールローカライゼーション、トポロジカルJigsaw再構成、異常一貫性検出という3つの戦略的プロキシタスクを通じて、検証可能な監視シグナルを導出する。
この欠点を厳密に定量化するために、幾何学的知覚を評価するために設計された新しいベンチマークであるMed-Scout-Benchを提案する。
大規模な評価の結果,Med-Scoutは幾何学的盲点を著しく軽減し,プロプライエタリでオープンソースのMLLMを40%以上上回った。
さらに、この拡張された幾何学的知覚は、より広範な医学的理解に一般化し、放射線学的および総合的な医学的VQAタスクにおいて優れた結果を得る。
関連論文リスト
- M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning [76.27615570807774]
幾何学的推論のような視覚集約的なタスクでは、MLLMは幻覚を頻繁に起こし、不正確な推論をもたらす。
本稿では,まず幾何学的構造の視覚的知覚を高め,推論能力を育成する2段階のRLトレーニングフレームワークを提案する。
この2段階学習は, 直接推論学習法と比較して, 幾何学的推論を9.7%改善し, 幾何学的問題解決を9.1%改善する。
論文 参考訳(メタデータ) (2025-09-22T07:28:09Z) - EH-Benchmark Ophthalmic Hallucination Benchmark and Agent-Driven Top-Down Traceable Reasoning Workflow [43.82288530883818]
EH-Benchmarkは、医学大言語モデルにおける幻覚を評価するために設計された新しい眼科ベンチマークである。
特定のタスクとエラータイプに基づいて幻覚を視覚的理解と論理的構成の2つの主要クラスに分類する。
我々のフレームワークは、両方の幻覚、精度、解釈可能性、信頼性を著しく軽減します。
論文 参考訳(メタデータ) (2025-07-24T12:07:36Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedHEval: Benchmarking Hallucinations and Mitigation Strategies in Medical Large Vision-Language Models [37.78272983522441]
医療分野においてLVLM(Large Vision Language Models)の重要性が高まっている。
MedHEvalは、Med-LVLMの幻覚と緩和戦略を体系的に評価する新しいベンチマークである。
我々は,11個のLVLM(Med-LVLM)を用いて実験を行い,7つの最先端の幻覚緩和技術を評価した。
論文 参考訳(メタデータ) (2025-03-04T00:40:09Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models [25.413601452403213]
LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。
LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T22:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。