論文の概要: Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2512.03667v1
- Date: Wed, 03 Dec 2025 10:55:07 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:09:05.883435
- Title: Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning
- Title(参考訳): Colon-X:マルチモーダル理解から臨床推論への知的大腸内視鏡の進歩
- Authors: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes,
- Abstract要約: Colon-Xは、大腸内視鏡におけるマルチモーダルインテリジェンス向上を目的としたオープンイニシアチブである。
ColonVQAは、大腸内視鏡のために構築された最も包括的なマルチモーダルデータセットである。
ColonReasonは、マルチエキスパートの議論パイプラインを通じて注釈付けされた推論データセットである。
ColonR1はタスク適応型報酬と勾配安定最適化を取り入れた最初のR1スタイルのモデルである。
- 参考スコア(独自算出の注目度): 45.385273103646654
- License:
- Abstract: In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.
- Abstract(参考訳): 本研究では,大腸内視鏡におけるマルチモーダルインテリジェンス向上を目的としたオープンイニシアチブであるColon-Xを提案する。
大腸内視鏡のために構築された最も包括的なマルチモーダルデータセットであるColonVQAの構築から始まり、76の臨床所見と18のマルチモーダルタスクからなる1.1M以上の視覚的質問応答エントリを特徴とする。
コミュニティ全体のデータ基盤として機能するだけでなく、大腸内視鏡の重要かつ過小評価された移行について、マルチモーダルな理解から臨床推論への進化についてさらに調査する。
(a) マルチモーダル理解行動の現況を捉えるため,22の多モーダル大言語モデルの一般化可能性を体系的に評価し,その信頼性を人為的摂動下で検証する。
その結果,MLLMをリードする患者の臨床出力は,信頼性と信頼性に乏しいことが明らかとなった。
b) このギャップを狭めるために, 大腸内視鏡に適合した推論中心の知能について検討する。
具体的には,マルチエキスパート議論パイプラインを通じて注釈付けされた臨床基盤推論データセットであるColonReasonをキュレートし,タスク適応型報酬処理と勾配安定最適化を取り入れた最初のR1スタイルモデルであるColonR1を開発した。
データスカース条件下では,ColonR1は総精度56.61%,教師付き微調整25.22%を上回り,マルチモーダル大腸内視鏡解析のための新たな推論可能なベースラインを設定した。
すべてのデータとモデルリソースはhttps://github.com/ai4colonoscopy/Colon-Xで公開されている。
関連論文リスト
- EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - CCIS-Diff: A Generative Model with Stable Diffusion Prior for Controlled Colonoscopy Image Synthesis [7.1892156088672]
拡散アーキテクチャに基づく高品質な大腸内視鏡画像合成のための制御された生成モデルを提案する。
本手法は, 臨床記述に適合するポリープの空間特性(ポリープ位置と形状)と臨床特性の両方を正確に制御する。
論文 参考訳(メタデータ) (2024-11-19T03:30:06Z) - Frontiers in Intelligent Colonoscopy [96.57251132744446]
本研究は, インテリジェント大腸内視鏡技術のフロンティアと, マルチモーダル医療への応用の可能性について検討する。
大腸内視鏡的シーン知覚のための4つのタスクを通して,現在のデータ中心およびモデル中心のランドスケープを評価した。
今後のマルチモーダル時代を受け入れるために,大規模マルチモーダル・インストラクション・チューニング・データセットColoninST,大腸内視鏡で設計されたマルチモーダル言語モデルColonGPT,マルチモーダル・ベンチマークの3つの基本イニシアティブを構築した。
論文 参考訳(メタデータ) (2024-10-22T17:57:12Z) - REAL-Colon: A dataset for developing real-world AI applications in
colonoscopy [1.8590283101866463]
本稿では,REAL-Colon(Real-world Multi-center Endoscopy Annotated Video Library)データセットを紹介する。
これは60のフル解像度の実際の大腸内視鏡記録から、2.7Mのネイティブビデオフレームで構成されている。
データセットには350kのバウンディングボックスアノテーションが含まれており、それぞれが専門の消化器科医の監督の下で作成されている。
論文 参考訳(メタデータ) (2024-03-04T16:11:41Z) - Assessing generalisability of deep learning-based polyp detection and
segmentation methods through a computer vision challenge [11.914243295893984]
ポリープは大腸内視鏡で同定されたよく知られたがん前駆体である。
大腸ポリープのサーベイランスと除去は、非常に操作性に依存した手順である。
大腸ポリープの欠失検出率と不完全除去率がある。
論文 参考訳(メタデータ) (2022-02-24T11:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。