Fugu-MT 論文翻訳(概要): ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax

論文の概要: ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax

arxiv url: http://arxiv.org/abs/2303.01615v2
Date: Fri, 15 Sep 2023 21:48:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 00:40:48.131098
Title: ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax
Title（参考訳）: context net: 気胸のセグメンテーションのためのマルチモーダル視覚言語モデル
Authors: Zachary Huemann, Xin Tie, Junjie Hu, Tyler J. Bradshaw
Abstract要約: 胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。 Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
参考スコア（独自算出の注目度）: 5.168314889999992
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Radiology narrative reports often describe characteristics of a patient's disease, including its location, size, and shape. Motivated by the recent success of multimodal learning, we hypothesized that this descriptive text could guide medical image analysis algorithms. We proposed a novel vision-language model, ConTEXTual Net, for the task of pneumothorax segmentation on chest radiographs. ConTEXTual Net utilizes language features extracted from corresponding free-form radiology reports using a pre-trained language model. Cross-attention modules are designed to combine the intermediate output of each vision encoder layer and the text embeddings generated by the language model. ConTEXTual Net was trained on the CANDID-PTX dataset consisting of 3,196 positive cases of pneumothorax with segmentation annotations from 6 different physicians as well as clinical radiology reports. Using cross-validation, ConTEXTual Net achieved a Dice score of 0.716$\pm$0.016, which was similar to the degree of inter-reader variability (0.712$\pm$0.044) computed on a subset of the data. It outperformed both vision-only models (ResNet50 U-Net: 0.677$\pm$0.015 and GLoRIA: 0.686$\pm$0.014) and a competing vision-language model (LAVT: 0.706$\pm$0.009). Ablation studies confirmed that it was the text information that led to the performance gains. Additionally, we show that certain augmentation methods degraded ConTEXTual Net's segmentation performance by breaking the image-text concordance. We also evaluated the effects of using different language models and activation functions in the cross-attention module, highlighting the efficacy of our chosen architectural design.
Abstract（参考訳）: 放射線学の物語は、その位置、大きさ、形状を含む患者の病気の特徴をしばしば記述している。マルチモーダル学習の最近の成功に動機づけられ、この記述テキストは医用画像解析アルゴリズムを導くことができると仮定した。胸部x線写真における気胸セグメンテーションの課題として,新しい視覚言語モデルcontextual netを提案した。 ConTEXTual Netは、事前訓練された言語モデルを用いて、対応する自由形放射線学レポートから抽出された言語特徴を利用する。クロスアテンションモジュールは、各視覚エンコーダ層の中間出力と、言語モデルによって生成されたテキスト埋め込みを組み合わせるように設計されている。 ConTEXTual NetはCANDID-PTXデータセットを用いて6名の医師のセグメンテーションアノテーションと臨床放射線検査で3,196例の気胸を認めた。クロスバリデーションを用いて、コンテクストネットは0.716$\pm$0.016というサイススコアを達成し、これはデータのサブセット上で計算されるリーダー間変動度(0.712$\pm$0.044)と類似した。ビジョンのみのモデル(ResNet50 U-Net: 0.677$\pm$0.015 と GLoRIA: 0.686$\pm$0.014)と競合するビジョン言語モデル(LAVT: 0.706$\pm$0.009)の両方を上回った。アブレーション研究は、パフォーマンス向上につながったのはテキスト情報であることを確認した。さらに,画像テキストの一致を破ることで,ConTEXTual Netのセグメンテーション性能を劣化させる手法も示した。また、クロスアテンションモジュールにおける異なる言語モデルとアクティベーション関数の使用の効果を評価し、選択したアーキテクチャ設計の有効性を強調した。

関連論文リスト

Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation [4.286815457787583]
Causal-SAM-LLMはLarge Language Models(LLM)を因果推論の役割に高める新しいフレームワークである。第一に、Linguistic Adrial Disentanglement (LAD)は視覚言語モデルを用いて、融合した画像スタイルのリッチでテキストによる記述を生成する。第2に、Test-Time Causal Intervention (TCI)は、LLMが臨床者の自然言語コマンドを解釈し、セグメント化デコーダの特徴をリアルタイムで変調する対話的なメカニズムを提供する。
論文参考訳（メタデータ） (2025-07-04T13:52:16Z)
MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文参考訳（メタデータ） (2025-02-11T09:42:13Z)
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文参考訳（メタデータ） (2025-01-13T17:55:32Z)
A Lesion-aware Edge-based Graph Neural Network for Predicting Language Ability in Patients with Post-stroke Aphasia [12.129896943547912]
本稿では,脳卒中後失語症患者の安静時fMRI(r-fMRI)接続から言語能力を予測するために,病変認識型グラフニューラルネットワーク(LEGNet)を提案する。本モデルでは,脳領域間の機能的接続を符号化するエッジベース学習モジュール,病変符号化モジュール,サブグラフ学習モジュールの3つのコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-03T21:28:48Z)
Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。 2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文参考訳（メタデータ） (2024-07-19T17:24:25Z)
CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文参考訳（メタデータ） (2024-07-11T18:39:19Z)
Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文参考訳（メタデータ） (2024-07-02T12:58:35Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts [62.55349777609194]
我々は、SATと呼ばれるテキストプロンプトによって駆動される放射線学的スキャンにおいて、任意のセグメンテーションを可能にするモデルを構築することを目指している。トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。我々はSAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-28T18:16:00Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文参考訳（メタデータ） (2022-09-28T10:27:10Z)
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文参考訳（メタデータ） (2020-09-03T09:00:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。