Fugu-MT 論文翻訳(概要): Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation

論文の概要: Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2404.02845v2
Date: Sun, 7 Jul 2024 17:57:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 01:59:35.949203
Title: Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation
Title（参考訳）: 言語誘導型医用画像分割のためのクロスモーダルコンディショニング
Authors: Xiaoshuang Huang, Hongxiang Li, Meng Cao, Long Chen, Chenyu You, Dong An,
Abstract要約: 本稿では,言語誘導医療画像(RecLMIS)を提案する。実験では、公開されているMosMedData+データセット上で、LViTを3.74%のmIoUで上回り、RecLMISの優位性を実証した。
参考スコア（独自算出の注目度）: 35.07667640622332
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments underscore the potential of textual information in enhancing learning models for a deeper understanding of medical visual semantics. However, language-guided medical image segmentation still faces a challenging issue. Previous works employ implicit and ambiguous architectures to embed textual information. This leads to segmentation results that are inconsistent with the semantics represented by the language, sometimes even diverging significantly. To this end, we propose a novel cross-modal conditioned Reconstruction for Language-guided Medical Image Segmentation (RecLMIS) to explicitly capture cross-modal interactions, which assumes that well-aligned medical visual features and medical notes can effectively reconstruct each other. We introduce conditioned interaction to adaptively predict patches and words of interest. Subsequently, they are utilized as conditioning factors for mutual reconstruction to align with regions described in the medical notes. Extensive experiments demonstrate the superiority of our RecLMIS, surpassing LViT by 3.74% mIoU on the publicly available MosMedData+ dataset and achieving an average increase of 1.89% mIoU for cross-domain tests on our QATA-CoV19 dataset. Simultaneously, we achieve a relative reduction of 20.2% in parameter count and a 55.5% decrease in computational load. The code will be available at https://github.com/ShashankHuang/RecLMIS.
Abstract（参考訳）: 近年の進歩は、医学的な視覚的意味論をより深く理解するために、学習モデルの強化におけるテキスト情報の可能性を強調している。しかし、言語誘導型医療画像のセグメンテーションは依然として困難な問題に直面している。以前の作品では、暗黙的かつ曖昧なアーキテクチャを使ってテキスト情報を埋め込んでいる。これにより、セグメンテーションの結果は、言語によって表現されるセグメンテーションと矛盾し、時には大きく変化する。そこで本研究では,言語誘導型医用画像分割のためのクロスモーダルコンディショニング(RecLMIS)を提案する。我々は、関心のパッチや単語を適応的に予測するために条件付き相互作用を導入する。その後、医療ノートに記載されている地域と整合する相互再建の条件付け因子として活用される。大規模な実験では、公開されているMosMedData+データセット上でLViTを3.74%上回り、QATA-CoV19データセット上でのクロスドメインテストにおいて平均1.89%のmIoUを達成するという、RecLMISの優位性を実証している。同時にパラメータ数を20.2%、計算負荷を55.5%削減する。コードはhttps://github.com/ShashankHuang/RecLMIS.comで入手できる。

関連論文リスト

ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文参考訳（メタデータ） (2025-01-08T05:15:43Z)
MedicalNarratives: Connecting Medical Vision and Language with Localized Narratives [11.242775987217032]
MedicalNarrativesは、Think-Aloudの研究で収集されたデータと、本質的に類似した医療教育ビデオから収集されたデータセットである。我々のデータセットは、ビデオと記事から4.7Mの画像テキストペアを含み、100万のサンプルには、トレースとバウンディングボックスの形で密集したアノテーションが含まれている。 MedicalNarrativesの有用性を評価するために、12の医療ドメインにまたがるデータセットを用いて、CLIPアーキテクチャに基づいてGenMedClipをトレーニングする。
論文参考訳（メタデータ） (2025-01-07T23:32:05Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation [7.912408164613206]
医用画像参照(MIRS)は、与えられた言語表現に基づく画像の断片化を必要とする。 LSMS(Language-guided Scale-Aware MedSegmentor)というアプローチを提案する。 LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
論文参考訳（メタデータ） (2024-08-30T15:22:13Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
PairAug: What Can Augmented Image-Text Pairs Do for Radiology? [23.042820473327303]
現在の視覚言語による事前学習手法は、主にペア化された画像テキストデータセットに依存している。医用画像とテキストデータを同時に拡張するフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-07T13:40:29Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Adding more data does not always help: A study in medical conversation summarization with PEGASUS [5.276054618115727]
PEGを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討した。また,分類環境での成功を受けて,低データ体制における様々な反復的なラベル付け戦略の評価を行った。我々の研究は、医療会話要約への分類における低データ体制技術の導入の成功と課題に光を当てている。
論文参考訳（メタデータ） (2021-11-15T07:27:35Z)
Image Translation for Medical Image Generation -- Ischemic Stroke Lesions [0.0]
注釈付き病理を持つ合成データベースは、必要なトレーニングデータを提供することができる。画像から画像への変換モデルを訓練し、脳卒中病変を伴わない脳の容積の磁気共鳴像を合成する。臨床例は10例, 50例に過ぎなかったが, 総合的なデータ拡張は有意な改善をもたらすことが示唆された。
論文参考訳（メタデータ） (2020-10-05T09:12:28Z)
Learning Contextualized Document Representations for Healthcare Answer Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文参考訳（メタデータ） (2020-02-03T15:47:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。