論文の概要: MedRegion-CT: Region-Focused Multimodal LLM for Comprehensive 3D CT Report Generation
- arxiv url: http://arxiv.org/abs/2506.23102v1
- Date: Sun, 29 Jun 2025 06:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.717765
- Title: MedRegion-CT: Region-Focused Multimodal LLM for Comprehensive 3D CT Report Generation
- Title(参考訳): MedRegion-CT:包括的3次元CTレポート生成のための領域焦点多重モードLCM
- Authors: Sunggu Kyung, Jinyoung Seo, Hyunseok Lim, Dongyeong Kim, Hyungbin Park, Jimin Sung, Jihyun Kim, Wooyoung Jo, Yoojin Nam, Namkug Kim,
- Abstract要約: 本稿では,MLLMフレームワークであるMedRegion-CTを提案する。
まず,2次元事前学習型視覚モデルを用いて3次元CTの特徴を効率よく抽出する地域代表(R2$)トークンプーリングを紹介する。
次に、ユニバーサルセグメンテーションモデルが擬似マスクを生成し、マスクエンコーダによって処理され、領域中心の特徴を抽出する。
第3に, 臓器の大きさ, 径, 位置など, 患者固有の属性を抽出するために, セグメンテーション結果を活用する。
- 参考スコア(独自算出の注目度): 1.6515663221123749
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent release of RadGenome-Chest CT has significantly advanced CT-based report generation. However, existing methods primarily focus on global features, making it challenging to capture region-specific details, which may cause certain abnormalities to go unnoticed. To address this, we propose MedRegion-CT, a region-focused Multi-Modal Large Language Model (MLLM) framework, featuring three key innovations. First, we introduce Region Representative ($R^2$) Token Pooling, which utilizes a 2D-wise pretrained vision model to efficiently extract 3D CT features. This approach generates global tokens representing overall slice features and region tokens highlighting target areas, enabling the MLLM to process comprehensive information effectively. Second, a universal segmentation model generates pseudo-masks, which are then processed by a mask encoder to extract region-centric features. This allows the MLLM to focus on clinically relevant regions, using six predefined region masks. Third, we leverage segmentation results to extract patient-specific attributions, including organ size, diameter, and locations. These are converted into text prompts, enriching the MLLM's understanding of patient-specific contexts. To ensure rigorous evaluation, we conducted benchmark experiments on report generation using the RadGenome-Chest CT. MedRegion-CT achieved state-of-the-art performance, outperforming existing methods in natural language generation quality and clinical relevance while maintaining interpretability. The code for our framework is publicly available.
- Abstract(参考訳): RadGenome-Chest CTの最近のリリースでは、CTベースのレポート生成が大幅に進歩している。
しかし、既存の手法は主にグローバルな特徴に重点を置いており、地域固有の詳細を捉えることは困難であり、特定の異常が気付かれなくなる可能性がある。
そこで本稿では,MLLM(Multiple-Modal Large Language Model)フレームワークであるMedRegion-CTを提案する。
まず,2次元事前学習型視覚モデルを用いて3次元CTの特徴を効率よく抽出する地域代表(R^2$)トークンプーリングを紹介する。
このアプローチは、全体スライス特徴を表すグローバルトークンと、対象領域を強調するリージョントークンを生成し、MLLMが包括的な情報を効果的に処理できるようにする。
次に、ユニバーサルセグメンテーションモデルが擬似マスクを生成し、マスクエンコーダによって処理され、領域中心の特徴を抽出する。
これによりMLLMは6つの予め定義された領域マスクを使用して臨床的に関連のある領域に集中することができる。
第3に, 臓器の大きさ, 径, 位置など, 患者固有の属性を抽出するために, セグメンテーション結果を活用する。
これらはテキストプロンプトに変換され、MLLMの患者固有のコンテキストに対する理解を深める。
厳密な評価を確保するため,RadGenome-Chest CTを用いてレポート生成のベンチマーク実験を行った。
MedRegion-CTは、解釈可能性を維持しながら、自然言語生成の品質と臨床関連性において、既存の手法よりも優れた、最先端のパフォーマンスを実現した。
私たちのフレームワークのコードは公開されています。
関連論文リスト
- Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.804660464589285]
既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。
我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文 参考訳(メタデータ) (2024-11-23T12:25:06Z) - Improving 3D Medical Image Segmentation at Boundary Regions using Local Self-attention and Global Volume Mixing [14.0825980706386]
ボリューム・メディカル・イメージ・セグメンテーションは、与えられた3次元ボリューム・メディカル・イメージをボクセルレベルの精度で正確に分類することを目的とする医用画像解析の基本的な問題である。
本研究では,3次元医用画像セグメンテーションにおける局所的およびグローバルな依存関係を明示的に捉えることを目的とした,階層型エンコーダデコーダベースの新しいフレームワークを提案する。
提案フレームワークは,局所的なボリュームベースの自己アテンションを利用して局所的な依存関係を高解像度でエンコードし,低解像度の特徴表現でグローバルな依存関係をキャプチャする新しいボリュームミキサを導入する。
論文 参考訳(メタデータ) (2024-10-20T11:08:38Z) - Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attention for Superior Receptive Fields [19.71033340093199]
本稿では,医療画像のセグメンテーションの限界を克服する新しいアーキテクチャであるspective+Unetを提案する。
このフレームワークは ENLTB という名前の効率的な非局所トランスフォーマーブロックを組み込んでおり、これはカーネル関数近似を利用して、効率的な長距離依存性キャプチャを行う。
ACDCとデータセットに関する実験結果から,提案したパースペクティブ+Unetの有効性が示された。
論文 参考訳(メタデータ) (2024-06-20T07:17:39Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation [48.107348956719775]
Mask-Enhanced SAM (M-SAM) は, 腫瘍の3次元セグメント化に適した革新的なアーキテクチャである。
本稿では,M-SAM内におけるMask-Enhanced Adapter (MEA) を提案する。
我々のM-SAMは高いセグメンテーション精度を達成し、またロバストな一般化を示す。
論文 参考訳(メタデータ) (2024-03-09T13:37:02Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - A unified 3D framework for Organs at Risk Localization and Segmentation
for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする
本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。
提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文 参考訳(メタデータ) (2022-03-01T17:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。