論文の概要: CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.05911v1
- Date: Fri, 06 Mar 2026 04:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.097361
- Title: CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning
- Title(参考訳): CORE-Seg:強化学習による複雑な病変に対する推論駆動セグメンテーション
- Authors: Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu,
- Abstract要約: 推論駆動型複雑病変セグメンテーションのための最初の多種多様なChain-of-ThoughtベンチマークであるComLesion-14Kを紹介する。
本稿では,セマンティックガイド型プロンプトアダプタによる推論とセグメンテーションを統合したエンドツーエンドフレームワークであるCORE-Segを提案する。
我々の手法は、平均Diceが37.06%(第2ベットベースラインよりも14.89%高い)であり、失敗率は18.42%に低下する。
- 参考スコア(独自算出の注目度): 48.77689764063103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation is undergoing a paradigm shift from conventional visual pattern matching to cognitive reasoning analysis. Although Multimodal Large Language Models (MLLMs) have shown promise in integrating linguistic and visual knowledge, significant gaps remain: existing general MLLMs possess broad common sense but lack the specialized visual reasoning required for complex lesions, whereas traditional segmentation models excel at pixel-level segmentation but lack logical interpretability. In this paper, we introduce ComLesion-14K, the first diverse Chain-of-Thought (CoT) benchmark for reasoning-driven complex lesion segmentation. To accomplish this task, we propose CORE-Seg, an end-to-end framework integrating reasoning with segmentation through a Semantic-Guided Prompt Adapter. We design a progressive training strategy from SFT to GRPO, equipped with an adaptive dual-granularity reward mechanism to mitigate reward sparsity. Our Method achieves state-of-the-art results with a mean Dice of 37.06\% (14.89\% higher than the second-best baseline), while reducing the failure rate to 18.42\%. Project Page: https://xyxl024.github.io/CORE-Seg.github.io/
- Abstract(参考訳): 医用画像のセグメンテーションは、従来の視覚パターンマッチングから認知的推論分析へのパラダイムシフトを受けている。
MLLM(Multimodal Large Language Models)は言語的知識と視覚的知識の統合を約束しているが、大きなギャップは残る: 既存のMLLMは広義の常識を持っているが、複雑な病変に対して特別な視覚的推論が欠けているのに対して、従来のセグメンテーションモデルはピクセルレベルのセグメンテーションで優れているが論理的解釈性は欠如している。
本稿では,推理駆動型複雑病変セグメンテーションのためのCoT(Chain-of-Thought)ベンチマークであるComLesion-14Kを紹介する。
そこで本研究では,セマンティックガイド型プロンプトアダプタによる推論とセグメンテーションを統合した,エンドツーエンドのフレームワークであるCORE-Segを提案する。
SFTからGRPOへのプログレッシブトレーニング戦略を設計し、適応的な二重粒度報酬機構を備え、報酬の分散を緩和する。
本手法は, 平均Diceが37.06\%(第2ベットベースラインよりも14.89\%高い)であり, 故障率を18.42\%に下げる。
Project Page: https://xyxl024.github.io/CORE-Seg.github.io/
関連論文リスト
- Bridging Semantics and Geometry: A Decoupled LVLM-SAM Framework for Reasoning Segmentation in Remote Sensing [8.731693840957716]
Think2Seg-RSはLVLMプロンプトをトレーニングし、構造化された幾何学的プロンプトを介して凍ったセグメンション・アプライシング・モデル(SAM)を制御するフレームワークである。
このフレームワークは、EarthReasonデータセット上で最先端のパフォーマンスを達成する。
コンパクトセグメンタは、意味レベルの監督の下でより大きなセグメンタより優れており、異種空中背景において負のプロンプトは効果がない。
論文 参考訳(メタデータ) (2025-12-22T11:46:42Z) - Through the Looking Glass: A Dual Perspective on Weakly-Supervised Few-Shot Segmentation [46.635612270422655]
メタラーニングは、同じカテゴリと類似属性を特徴とする均一なサポートクエリペアを均一にサンプリングすることを目的としている。
この同一のネットワーク設計は、過剰なセマンティックな均質化をもたらす。
本稿では,相補性を向上し,意味的共通性を維持するための,新しい異種ネットワークを提案する。
弱教師付き少ショットセマンティックセグメンテーション(WFSS)タスクでは、TLGはPascal-5textsuperscriptiで13.2%、COCO-20textsuperscriptiで9.7%改善している。
論文 参考訳(メタデータ) (2025-08-22T07:29:30Z) - LENS: Learning to Segment Anything with Unified Reinforced Reasoning [38.582392908238866]
LENSは拡張性のある強化学習フレームワークで、推論プロセスとセグメンテーションをエンドツーエンドで共同で最適化する。
LENSはRefCOCO、RefCOCO+、RefCOCOgのベンチマークで平均81.2%のcIoUを達成し、GLaMMという強力な微調整法を最大5.6%上回っている。
論文 参考訳(メタデータ) (2025-08-19T17:59:53Z) - DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy [20.581841892290672]
RISを認知と認知という2つの重要な構成要素に分解する新しいフレームワークであるDeRISを提案する。
以上の結果から,従来のモデルでは知覚障害ではなく,マルチモーダル認知能力が不十分であることが示唆された。
本稿では,ターゲット存在判定に関連する長期分布問題に対処するため,単純な非参照型サンプル変換データ拡張を提案する。
論文 参考訳(メタデータ) (2025-07-02T14:14:35Z) - Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。