論文の概要: Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2509.19090v2
- Date: Wed, 24 Sep 2025 08:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 14:09:11.256976
- Title: Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning
- Title(参考訳): Citrus-V:臨床推論のための統一医用画像グラウンドリングによる医療基礎モデルの改善
- Authors: Guoxin Wang, Jun Zhao, Xinyi Liu, Yanbo Liu, Xuyang Cao, Chao Li, Zhuoyun Liu, Qintian Sun, Fangru Zhou, Haoqiang Xing, Zhenhong Yang,
- Abstract要約: 本稿では,画像解析とテキスト推論を組み合わせたマルチモーダル医療基盤モデルであるCitrus-Vを紹介する。
このモデルは、検出、セグメンテーション、およびマルチモーダル・チェーン・オブ・シント推論を統合する。
ピクセルレベルの病変の局所化、構造化レポート生成、医師のような診断推論をサポートする。
- 参考スコア(独自算出の注目度): 13.783146290218738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical imaging provides critical evidence for clinical diagnosis, treatment planning, and surgical decisions, yet most existing imaging models are narrowly focused and require multiple specialized networks, limiting their generalization. Although large-scale language and multimodal models exhibit strong reasoning and multi-task capabilities, real-world clinical applications demand precise visual grounding, multimodal integration, and chain-of-thought reasoning. We introduce Citrus-V, a multimodal medical foundation model that combines image analysis with textual reasoning. The model integrates detection, segmentation, and multimodal chain-of-thought reasoning, enabling pixel-level lesion localization, structured report generation, and physician-like diagnostic inference in a single framework. We propose a novel multimodal training approach and release a curated open-source data suite covering reasoning, detection, segmentation, and document understanding tasks. Evaluations demonstrate that Citrus-V outperforms existing open-source medical models and expert-level imaging systems across multiple benchmarks, delivering a unified pipeline from visual grounding to clinical reasoning and supporting precise lesion quantification, automated reporting, and reliable second opinions.
- Abstract(参考訳): 医用画像は、臨床診断、治療計画、外科的決定に対する重要な証拠を提供するが、既存の画像モデルは、焦点が狭く、複数の専門的なネットワークを必要とするため、一般化を制限している。
大規模言語とマルチモーダルモデルには強い推論能力とマルチタスク能力があるが、実世界の臨床応用には正確な視覚的グラウンド、マルチモーダル統合、チェーン・オブ・シークレット推論が必要である。
本稿では,画像解析とテキスト推論を組み合わせたマルチモーダル医療基盤モデルであるCitrus-Vを紹介する。
このモデルは、検出、セグメンテーション、マルチモーダル・チェーン・オブ・シント推論を統合し、ピクセルレベルの病変の局所化、構造化レポート生成、医師のような診断を単一のフレームワークで実現している。
本稿では,新たなマルチモーダルトレーニング手法を提案し,推論,検出,セグメンテーション,文書理解タスクを対象とするオープンソースデータスイートをリリースする。
Citrus-Vは、複数のベンチマークで既存のオープンソース医療モデルや専門家レベルのイメージングシステムよりも優れており、ビジュアルグラウンドから臨床推論までの統一パイプラインを提供し、正確な病変の定量化、自動報告、信頼できる第2の意見をサポートする。
関連論文リスト
- Intelligent Healthcare Imaging Platform An VLM-Based Framework for Automated Medical Image Analysis and Clinical Report Generation [0.0]
本稿では,視覚言語モデル(VLM)を活用した医用画像解析のためのインテリジェントマルチモーダルフレームワークを提案する。
このフレームワークはGoogle Gemini 2.5 Flashを統合し、腫瘍を自動的に検出し、CT、MRI、X線、超音波などの複数の画像モダリティで臨床報告を生成する。
論文 参考訳(メタデータ) (2025-09-16T23:15:44Z) - MedAtlas: Evaluating LLMs for Multi-Round, Multi-Task Medical Reasoning Across Diverse Imaging Modalities and Clinical Text [25.102399692530245]
MedAtlasは、現実的な医学的推論タスクにおいて、大きな言語モデルを評価するための新しいベンチマークフレームワークである。
MedAtlasの特徴は、マルチターン・ダイアログ、マルチモーダル・メディカル・イメージ・インタラクション、マルチタスク統合、高臨床的忠実性である。
それぞれの症例は、実際の診断から派生したもので、テキスト医療史とCT、MRI、PET、超音波、X線などの複数の画像モダリティの時間的相互作用を取り入れている。
論文 参考訳(メタデータ) (2025-08-13T17:32:17Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - A Survey of Multimodal Ophthalmic Diagnostics: From Task-Specific Approaches to Foundational Models [28.34025112894094]
このレビューでは、タスク固有のマルチモーダルアプローチと大規模マルチモーダル基盤モデルという2つの主要なカテゴリに焦点を当てている。
この調査は重要なデータセット、評価指標、方法論の革新について批判的に調査している。
また、データの多様性、アノテーションの制限、解釈可能性の欠如、様々な患者集団における一般化可能性の問題など、現在進行中の課題についても論じている。
論文 参考訳(メタデータ) (2025-07-31T10:49:21Z) - Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images [1.4680035572775536]
ヴィジュアル言語モデルは、医療領域におけるマルチモーダル分類問題に挑戦するための強力なツールとして登場した。
既存の研究は、特定のモダリティや身体領域の臨床的記述に焦点を当てており、全身のマルチモーダル記述を提供するモデルにギャップを残している。
本稿では,マルチモーダルMRIおよびCT画像において,全身の標準化された体局と臓器のリストの自動生成により,このギャップに対処する。
論文 参考訳(メタデータ) (2024-05-31T09:59:11Z) - Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis [3.8758525789991896]
医用画像や臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。
医用画像では、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、重要な視覚情報をキャプチャした。
臨床報告テキストでは,2方向の長期・短期記憶ネットワークと注意機構を組み合わせることで,深い意味理解を実現する。
論文 参考訳(メタデータ) (2024-05-23T02:22:10Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。