論文の概要: VisionLLM-based Multimodal Fusion Network for Glottic Carcinoma Early Detection
- arxiv url: http://arxiv.org/abs/2412.18124v1
- Date: Tue, 24 Dec 2024 03:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:06.638128
- Title: VisionLLM-based Multimodal Fusion Network for Glottic Carcinoma Early Detection
- Title(参考訳): VisionLLM-based Multimodal Fusion Network for Glottic Carcinoma Early Detection
- Authors: Zhaohui Jin, Yi Shuai, Yongcheng Li, Lingcong Cai, Yun Li, Huifen Liu, Xiaomao Fan,
- Abstract要約: 本稿では, MMGC-Net として知られる声門癌検出のための視覚大言語モデル (VisionLLM に基づく) マルチモーダル核融合ネットワークを提案する。
我々は、画像エンコーダと追加のQ-Formerを利用して、視覚埋め込みとLarge Language Model Meta AI(Llama3)を抽出し、テキスト埋め込みを得る。
これらのモダリティは喉頭機能融合ブロックを介して統合され、画像特徴とテキスト特徴の包括的統合を可能にして、甲状腺癌識別性能を向上させる。
- 参考スコア(独自算出の注目度): 3.0755269719204064
- License:
- Abstract: The early detection of glottic carcinoma is critical for improving patient outcomes, as it enables timely intervention, preserves vocal function, and significantly reduces the risk of tumor progression and metastasis. However, the similarity in morphology between glottic carcinoma and vocal cord dysplasia results in suboptimal detection accuracy. To address this issue, we propose a vision large language model-based (VisionLLM-based) multimodal fusion network for glottic carcinoma detection, known as MMGC-Net. By integrating image and text modalities, multimodal models can capture complementary information, leading to more accurate and robust predictions. In this paper, we collect a private real glottic carcinoma dataset named SYSU1H from the First Affiliated Hospital of Sun Yat-sen University, with 5,799 image-text pairs. We leverage an image encoder and additional Q-Former to extract vision embeddings and the Large Language Model Meta AI (Llama3) to obtain text embeddings. These modalities are then integrated through a laryngeal feature fusion block, enabling a comprehensive integration of image and text features, thereby improving the glottic carcinoma identification performance. Extensive experiments on the SYSU1H dataset demonstrate that MMGC-Net can achieve state-of-the-art performance, which is superior to previous multimodal models.
- Abstract(参考訳): 声門癌の早期発見は、タイムリーな介入を可能にし、声道機能を維持し、腫瘍の進行と転移のリスクを著しく減少させるため、患者の予後を改善するために重要である。
しかし, 声門部癌と声帯異形成との形態的類似は, 検出精度を低下させる。
この問題に対処するために,MMGC-Net として知られる声門癌検出のための視覚大言語モデル(VisionLLM ベース)マルチモーダル融合ネットワークを提案する。
画像とテキストのモダリティを統合することで、マルチモーダルモデルは補完的な情報をキャプチャし、より正確で堅牢な予測につながる。
本稿では,Sun Yat-sen大学第一附属病院から,5,799対の画像テキストを用いて,SYSU1Hと命名された腺癌のプライベートなデータセットを収集する。
我々は、画像エンコーダと追加のQ-Formerを利用して、視覚埋め込みとLarge Language Model Meta AI(Llama3)を抽出し、テキスト埋め込みを得る。
これらのモダリティは喉頭機能融合ブロックを介して統合され、画像特徴とテキスト特徴の包括的統合を可能にして、甲状腺癌識別性能を向上させる。
SYSU1Hデータセットの大規模な実験は、MMGC-Netが従来のマルチモーダルモデルよりも優れている最先端のパフォーマンスを達成できることを実証している。
関連論文リスト
- A Multi-Modal Deep Learning Framework for Pan-Cancer Prognosis [15.10417643788382]
本稿では,UMPSNetというディープラーニングモデルを提案する。
UMPSNetはテキストテンプレートに4種類の重要なメタデータ(画像情報、癌型情報、治療プロトコル、診断結果)を統合し、テキストエンコーダを導入してテキストの特徴を抽出する。
multi-modality of patient data and joint training を取り入れることで、UMPSNetは全てのSOTAアプローチより優れている。
論文 参考訳(メタデータ) (2025-01-13T02:29:42Z) - PINN-EMFNet: PINN-based and Enhanced Multi-Scale Feature Fusion Network for Breast Ultrasound Images Segmentation [5.246262946799736]
本研究では,PINNに基づくマルチスケール機能融合ネットワークを提案する。
ネットワークは、いくつかの構造的革新を通じて、効率的に統合し、グローバルにマルチスケールの機能をモデル化する。
このデコーダ部では,マルチスケール・フィーチャー・リファインメント・デコーダが採用され,マルチスケール・スーパービジョン機構と修正モジュールを組み合わせることで,セグメンテーション精度と適応性を大幅に向上する。
論文 参考訳(メタデータ) (2024-12-22T09:16:00Z) - MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities [59.61465292965639]
本稿では,医療応用における生成モデルを活用するための新しいパラダイムについて検討する。
本稿では,テキストプロンプトとマスクに条件付き生成を可能にするMRGenという拡散型データエンジンを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。
プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T15:46:00Z) - SELECTOR: Heterogeneous graph network with convolutional masked autoencoder for multimodal robust prediction of cancer survival [8.403756148610269]
がん患者生存のマルチモーダル予測は、より包括的で正確なアプローチを提供する。
本稿では、畳み込みマスクエンコーダに基づく異種グラフ認識ネットワークであるSELECTORを紹介する。
本手法は,モダリティ欠落とモダリティ内情報確認の両事例において,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T11:23:39Z) - Gene-induced Multimodal Pre-training for Image-omic Classification [20.465959546613554]
本稿では、ゲノム情報と全スライド画像(WSI)を併用した遺伝子誘導型マルチモーダル事前学習フレームワークを提案する。
TCGAデータセットによる実験結果から,ネットワークアーキテクチャと事前学習フレームワークの優位性が示され,画像-オミクス分類の精度は99.47%に達した。
論文 参考訳(メタデータ) (2023-09-06T04:30:15Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Free-form tumor synthesis in computed tomography images via richer
generative adversarial network [25.20811195237978]
本稿では,CT画像における3次元腫瘍/レセオン合成のための,よりリッチな生成対向ネットワークを提案する。
このネットワークは、新しいリッチな畳み込み特徴強化拡張拡張型ジェネレータ(richerdg)とハイブリッド損失関数で構成されている。
論文 参考訳(メタデータ) (2021-04-20T00:49:35Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Gleason Grading of Histology Prostate Images through Semantic
Segmentation via Residual U-Net [60.145440290349796]
前立腺癌の最終診断は、病理学者による前立腺生検におけるGleasonパターンの視覚的検出に基づいている。
コンピュータ支援診断システムは、組織内のがんのパターンを分類し分類することができる。
この研究の方法論的核心は、がん組織を分節できる残留ブロックで修正された画像分割のためのU-Net畳み込みニューラルネットワークである。
論文 参考訳(メタデータ) (2020-05-22T19:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。