Fugu-MT 論文翻訳(概要): Large Language Model with Region-guided Referring and Grounding for CT Report Generation

論文の概要: Large Language Model with Region-guided Referring and Grounding for CT Report Generation

arxiv url: http://arxiv.org/abs/2411.15539v1
Date: Sat, 23 Nov 2024 12:25:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.454772
Title: Large Language Model with Region-guided Referring and Grounding for CT Report Generation
Title（参考訳）: CTレポート生成のための地域誘導参照とグラウンド化を用いた大規模言語モデル
Authors: Zhixuan Chen, Yequan Bie, Haibo Jin, Hao Chen,
Abstract要約: 既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
参考スコア（独自算出の注目度）: 4.804660464589285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computed tomography (CT) report generation is crucial to assist radiologists in interpreting CT volumes, which can be time-consuming and labor-intensive. Existing methods primarily only consider the global features of the entire volume, making it struggle to focus on specific regions and potentially missing abnormalities. To address this issue, we propose Reg2RG, the first region-guided referring and grounding framework for CT report generation, which enhances diagnostic performance by focusing on anatomical regions within the volume. Specifically, we utilize masks from a universal segmentation module to capture local features for each referring region. A local feature decoupling (LFD) strategy is proposed to preserve the local high-resolution details with little computational overhead. Then the local features are integrated with global features to capture inter-regional relationships within a cohesive context. Moreover, we propose a novel region-report alignment (RRA) training strategy. It leverages the recognition of referring regions to guide the generation of region-specific reports, enhancing the model's referring and grounding capabilities while also improving the report's interpretability. A large language model (LLM) is further employed as the language decoder to generate reports from integrated visual features, facilitating region-level comprehension. Extensive experiments on two large-scale chest CT-report datasets demonstrate the superiority of our method, which outperforms several state-of-the-art methods in terms of both natural language generation and clinical efficacy metrics while preserving promising interpretability. The code will be made publicly available.
Abstract（参考訳）: CT(Computed tomography)レポート生成は,CTボリュームの解釈において放射線技師を支援するために重要である。既存の手法は、主にボリューム全体のグローバルな特徴のみを考慮し、特定の領域に焦点を絞ることに苦労し、潜在的な異常を欠く可能性がある。そこで本研究では,CTレポート生成のための第1の領域誘導参照基盤フレームワークであるReg2RGを提案する。具体的には,各参照領域の局所的な特徴を捉えるために,ユニバーサルセグメンテーションモジュールのマスクを利用する。局所的特徴分離(LFD)戦略は、計算オーバーヘッドが少なく、局所的な高解像度の詳細を保存するために提案される。次に、局所的な特徴をグローバルな特徴と統合して、凝集状態内の地域間関係をキャプチャする。さらに,新しい地域レポートアライメント(RRA)トレーニング戦略を提案する。参照領域の認識を活用して、地域固有のレポートの生成をガイドし、モデルの参照と接地能力を向上するとともに、レポートの解釈可能性を向上させる。言語デコーダとして大規模言語モデル(LLM)がさらに採用され、統合された視覚的特徴からレポートを生成し、地域レベルの理解を容易にする。 2つの大規模胸部CT-reportデータセットに対する広範囲な実験により,本手法の優位性が確認された。コードは公開されます。

関連論文リスト

MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization [19.70803794316208]
医用画像グラウンドディング(MIG)は、テキスト記述に基づいて、医療画像内の特定の領域をローカライズする。 MIGの既存のビジョンランゲージモデル(VLM)は、大量のチェーン・オブ・ソート(CoT)推論アノテーションを持つスーパービジョンファインチューニング(SFT)に依存していることが多い。本研究では,CoT推論アノテーションを使わずにモデルをトレーニングするための空間意味的回帰グループ相対ポリシー最適化を提案する。
論文参考訳（メタデータ） (2025-07-01T21:51:42Z)
MedRegion-CT: Region-Focused Multimodal LLM for Comprehensive 3D CT Report Generation [1.6515663221123749]
本稿では,MLLMフレームワークであるMedRegion-CTを提案する。まず,2次元事前学習型視覚モデルを用いて3次元CTの特徴を効率よく抽出する地域代表(R2$)トークンプーリングを紹介する。次に、ユニバーサルセグメンテーションモデルが擬似マスクを生成し、マスクエンコーダによって処理され、領域中心の特徴を抽出する。第3に, 臓器の大きさ, 径, 位置など, 患者固有の属性を抽出するために, セグメンテーション結果を活用する。
論文参考訳（メタデータ） (2025-06-29T06:08:55Z)
SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文参考訳（メタデータ） (2024-09-07T08:16:00Z)
RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文参考訳（メタデータ） (2024-05-30T09:03:23Z)
Multi-modality Regional Alignment Network for Covid X-Ray Survival Prediction and Report Generation [36.343753593390254]
本研究は,放射線学報告の生成と生存予測のための説明可能なモデルであるマルチモーダル地域アライメントネットワーク(MRANet)を提案する。 MRANetは、領域固有の記述を視覚的に根拠として、完了戦略を備えた堅牢な解剖学的領域を提供する。横断LDMアライメントは、画像からテキストへの転送プロセスを強化するために使用され、その結果、臨床詳細に富んだ文と、放射線医の説明可能性が改善された。
論文参考訳（メタデータ） (2024-05-23T02:41:08Z)
HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction [16.060286162384536]
HistGenは、病理組織学レポート生成のための学習可能なフレームワークである。スライド画像全体(WSI)と局所的およびグローバルな粒度からの診断レポートを整列させることで、レポート生成を促進することを目的としている。 WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-08T15:51:43Z)
RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-03-04T18:58:08Z)
DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文参考訳（メタデータ） (2023-08-03T17:59:04Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Self adaptive global-local feature enhancement for radiology report generation [10.958641951927817]
グローバル・解剖学的領域の特徴を動的に融合して多粒性放射線学レポートを生成する新しいフレームワーク AGFNet を提案する。まず,入力胸部X線(CXR)の解剖学的特徴と大域的特徴を抽出する。そして,領域の特徴とグローバルな特徴を入力として,提案した自己適応型核融合ゲートモジュールは動的に多粒性情報を融合することができる。最後に、キャプション生成装置は、多粒性特徴により放射線学レポートを生成する。
論文参考訳（メタデータ） (2022-11-21T11:50:42Z)
Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2022-02-19T17:46:02Z)
Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文参考訳（メタデータ） (2021-07-28T03:46:57Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)
Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。 ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文参考訳（メタデータ） (2020-06-06T01:00:15Z)
LRC-Net: Learning Discriminative Features on Point Clouds by Encoding Local Region Contexts [65.79931333193016]
本稿では,LRC-Net(Local-Region-Context Network)を提案する。 LRC-Netは、局所領域内および周辺領域間の微粒なコンテキストを同時に符号化する。その結果, LRC-Netは形状分類や形状分割の応用において最先端の手法と競合することがわかった。
論文参考訳（メタデータ） (2020-03-18T14:34:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。