論文の概要: MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.02994v1
- Date: Tue, 01 Jul 2025 21:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.509674
- Title: MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization
- Title(参考訳): MedGround-R1:空間意味的集団相対的政策最適化による医用画像のグラウンド化の促進
- Authors: Huihui Xu, Yuanpeng Nie, Hualiang Wang, Ying Chen, Wei Li, Junzhi Ning, Lihao Liu, Hongqiu Wang, Lei Zhu, Jiyao Liu, Xiaomeng Li, Junjun He,
- Abstract要約: 医用画像グラウンドディング(MIG)は、テキスト記述に基づいて、医療画像内の特定の領域をローカライズする。
MIGの既存のビジョンランゲージモデル(VLM)は、大量のチェーン・オブ・ソート(CoT)推論アノテーションを持つスーパービジョンファインチューニング(SFT)に依存していることが多い。
本研究では,CoT推論アノテーションを使わずにモデルをトレーニングするための空間意味的回帰グループ相対ポリシー最適化を提案する。
- 参考スコア(独自算出の注目度): 19.70803794316208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Image Grounding (MIG), which involves localizing specific regions in medical images based on textual descriptions, requires models to not only perceive regions but also deduce spatial relationships of these regions. Existing Vision-Language Models (VLMs) for MIG often rely on Supervised Fine-Tuning (SFT) with large amounts of Chain-of-Thought (CoT) reasoning annotations, which are expensive and time-consuming to acquire. Recently, DeepSeek-R1 demonstrated that Large Language Models (LLMs) can acquire reasoning abilities through Group Relative Policy Optimization (GRPO) without requiring CoT annotations. In this paper, we adapt the GRPO reinforcement learning framework to VLMs for Medical Image Grounding. We propose the Spatial-Semantic Rewarded Group Relative Policy Optimization to train the model without CoT reasoning annotations. Specifically, we introduce Spatial-Semantic Rewards, which combine spatial accuracy reward and semantic consistency reward to provide nuanced feedback for both spatially positive and negative completions. Additionally, we propose to use the Chain-of-Box template, which integrates visual information of referring bounding boxes into the <think> reasoning process, enabling the model to explicitly reason about spatial regions during intermediate steps. Experiments on three datasets MS-CXR, ChestX-ray8, and M3D-RefSeg demonstrate that our method achieves state-of-the-art performance in Medical Image Grounding. Ablation studies further validate the effectiveness of each component in our approach. Code, checkpoints, and datasets are available at https://github.com/bio-mlhui/MedGround-R1
- Abstract(参考訳): 医用画像グラウンドリング(MIG)は、テキスト記述に基づく医用画像の特定の領域のローカライズを伴い、領域を知覚するだけでなく、これらの領域の空間的関係を推論するモデルを必要とする。
MIGの既存のビジョン・ランゲージ・モデル(VLM)は、大量のチェーン・オブ・ソート(CoT)推論アノテーションを持つスーパービジョン・ファイン・チューニング(SFT)に依存していることが多い。
最近、DeepSeek-R1は、大規模な言語モデル(LLM)が、CoTアノテーションを必要とせずに、グループ相対ポリシー最適化(GRPO)を通じて推論能力を得ることができることを示した。
本稿では,GRPO強化学習フレームワークを医用画像グラウンディング用VLMに適用する。
本研究では,CoT推論アノテーションを使わずにモデルをトレーニングするための空間意味的回帰グループ相対ポリシー最適化を提案する。
具体的には,空間的正と負の両方の完了に対するニュアンスフィードバックを提供するために,空間的精度報酬と意味的一貫性報酬を組み合わせた空間的意味的報酬を導入する。
さらに,中間段階における空間領域の空間的推論をモデルが明示的に行えるように,境界ボックスを参照する視覚情報を<think>推論プロセスに統合するChain-of-Boxテンプレートを提案する。
M3D-RefSegを用いたMS-CXR,ChestX-ray8,M3D-RefSegの3つのデータセット実験により,医用画像グラウンドリングにおける最先端性能が得られた。
アブレーション研究は、我々のアプローチにおける各コンポーネントの有効性をさらに検証する。
コード、チェックポイント、データセットはhttps://github.com/bio-mlhui/MedGround-R1で入手できる。
関連論文リスト
- VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z) - Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.804660464589285]
既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。
我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文 参考訳(メタデータ) (2024-11-23T12:25:06Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models [12.264115733611058]
テキストガイダンスでローカライズを行うタスクは、通常、フレーズグラウンドディング( phrase grounding)と呼ばれる。
私たちは、この挑戦的なタスクを実行するために、公開のFoundation Model、すなわちLatent Diffusion Modelを使用します。
胸部X線検査の結果から, 病理組織学的にSOTAと競合する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-19T14:43:48Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - Bidirectional Domain Mixup for Domain Adaptive Semantic Segmentation [73.3083304858763]
本稿では,ドメイン適応型セマンティックセグメンテーションタスクにおけるミックスアップの影響を系統的に研究する。
具体的には、ドメインミックスアップをカットとペーストという2ステップで実現します。
フレームワークの主なコンポーネントを実証的に検証するために、広範囲にわたるアブレーション実験を行います。
論文 参考訳(メタデータ) (2023-03-17T05:22:44Z) - Keep Your Friends Close & Enemies Farther: Debiasing Contrastive
Learning with Spatial Priors in 3D Radiology Images [11.251405818285331]
本研究では,抽出した対応を利用して表現学習のためのより効果的な正負のサンプルを選択する3Dコントラストフレームワーク(Spade)を提案する。
最近の最先端のアプローチと比較して、Spadeは3つの下流セグメンテーションタスクにおいて顕著な改善を示している。
論文 参考訳(メタデータ) (2022-11-16T03:36:06Z) - CPRAL: Collaborative Panoptic-Regional Active Learning for Semantic
Segmentation [35.11139361684248]
セグメンテーションタスクに対処する協調型パノプティカルアクティブラーニングフレームワーク(CPRAL)を提案する。
セグメンテーションデータセットのクラス不均衡を考慮し、セグメンテーションバイアス選択を実現するためにRegional Gaussian Attention Module (RGA)をインポートする。
CPRALは最先端手法よりも優れた性能を示し,ラベリング率も低い。
論文 参考訳(メタデータ) (2021-12-11T13:13:13Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。