論文の概要: VisionLLM-based Multimodal Fusion Network for Glottic Carcinoma Early Detection
- arxiv url: http://arxiv.org/abs/2412.18124v1
- Date: Tue, 24 Dec 2024 03:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 19:23:17.644239
- Title: VisionLLM-based Multimodal Fusion Network for Glottic Carcinoma Early Detection
- Title(参考訳): VisionLLM-based Multimodal Fusion Network for Glottic Carcinoma Early Detection
- Authors: Zhaohui Jin, Yi Shuai, Yongcheng Li, Lingcong Cai, Yun Li, Huifen Liu, Xiaomao Fan,
- Abstract要約: 本稿では, MMGC-Net として知られる声門癌検出のための視覚大言語モデル (VisionLLM に基づく) マルチモーダル核融合ネットワークを提案する。
我々は、画像エンコーダと追加のQ-Formerを利用して、視覚埋め込みとLarge Language Model Meta AI(Llama3)を抽出し、テキスト埋め込みを得る。
これらのモダリティは喉頭機能融合ブロックを介して統合され、画像特徴とテキスト特徴の包括的統合を可能にして、甲状腺癌識別性能を向上させる。
- 参考スコア(独自算出の注目度): 3.0755269719204064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The early detection of glottic carcinoma is critical for improving patient outcomes, as it enables timely intervention, preserves vocal function, and significantly reduces the risk of tumor progression and metastasis. However, the similarity in morphology between glottic carcinoma and vocal cord dysplasia results in suboptimal detection accuracy. To address this issue, we propose a vision large language model-based (VisionLLM-based) multimodal fusion network for glottic carcinoma detection, known as MMGC-Net. By integrating image and text modalities, multimodal models can capture complementary information, leading to more accurate and robust predictions. In this paper, we collect a private real glottic carcinoma dataset named SYSU1H from the First Affiliated Hospital of Sun Yat-sen University, with 5,799 image-text pairs. We leverage an image encoder and additional Q-Former to extract vision embeddings and the Large Language Model Meta AI (Llama3) to obtain text embeddings. These modalities are then integrated through a laryngeal feature fusion block, enabling a comprehensive integration of image and text features, thereby improving the glottic carcinoma identification performance. Extensive experiments on the SYSU1H dataset demonstrate that MMGC-Net can achieve state-of-the-art performance, which is superior to previous multimodal models.
- Abstract(参考訳): 声門癌の早期発見は、タイムリーな介入を可能にし、声道機能を維持し、腫瘍の進行と転移のリスクを著しく減少させるため、患者の予後を改善するために重要である。
しかし, 声門部癌と声帯異形成との形態的類似は, 検出精度を低下させる。
この問題に対処するために,MMGC-Net として知られる声門癌検出のための視覚大言語モデル(VisionLLM ベース)マルチモーダル融合ネットワークを提案する。
画像とテキストのモダリティを統合することで、マルチモーダルモデルは補完的な情報をキャプチャし、より正確で堅牢な予測につながる。
本稿では,Sun Yat-sen大学第一附属病院から,5,799対の画像テキストを用いて,SYSU1Hと命名された腺癌のプライベートなデータセットを収集する。
我々は、画像エンコーダと追加のQ-Formerを利用して、視覚埋め込みとLarge Language Model Meta AI(Llama3)を抽出し、テキスト埋め込みを得る。
これらのモダリティは喉頭機能融合ブロックを介して統合され、画像特徴とテキスト特徴の包括的統合を可能にして、甲状腺癌識別性能を向上させる。
SYSU1Hデータセットの大規模な実験は、MMGC-Netが従来のマルチモーダルモデルよりも優れている最先端のパフォーマンスを達成できることを実証している。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Large Language Model Evaluated Stand-alone Attention-Assisted Graph Neural Network with Spatial and Structural Information Interaction for Precise Endoscopic Image Segmentation [16.773882069530426]
本研究では,空間グラフと構造グラフを融合したFOCUS-Medを提案する。
FOCUS-Medは、Dual Graph Convolutional Network (Dual-GCN)モジュールを統合し、コンテキスト空間および位相構造上の依存関係をキャプチャする。
公開ベンチマークの実験では、FOCUS-Medが5つの主要な指標で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-08-09T15:53:19Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - A Multi-Modal Deep Learning Framework for Pan-Cancer Prognosis [15.10417643788382]
本稿では,UMPSNetというディープラーニングモデルを提案する。
UMPSNetはテキストテンプレートに4種類の重要なメタデータ(画像情報、癌型情報、治療プロトコル、診断結果)を統合し、テキストエンコーダを導入してテキストの特徴を抽出する。
multi-modality of patient data and joint training を取り入れることで、UMPSNetは全てのSOTAアプローチより優れている。
論文 参考訳(メタデータ) (2025-01-13T02:29:42Z) - PINN-EMFNet: PINN-based and Enhanced Multi-Scale Feature Fusion Network for Breast Ultrasound Images Segmentation [5.246262946799736]
本研究では,PINNに基づくマルチスケール機能融合ネットワークを提案する。
ネットワークは、いくつかの構造的革新を通じて、効率的に統合し、グローバルにマルチスケールの機能をモデル化する。
このデコーダ部では,マルチスケール・フィーチャー・リファインメント・デコーダが採用され,マルチスケール・スーパービジョン機構と修正モジュールを組み合わせることで,セグメンテーション精度と適応性を大幅に向上する。
論文 参考訳(メタデータ) (2024-12-22T09:16:00Z) - MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities [59.61465292965639]
本稿では,医療応用における生成モデルを活用するための新しいパラダイムについて検討する。
本稿では,テキストプロンプトとマスクに条件付き生成を可能にするMRGenという拡散型データエンジンを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Multimodal Outer Arithmetic Block Dual Fusion of Whole Slide Images and Omics Data for Precision Oncology [6.418265127069878]
本稿では, 局所(パッチレベル)から大域(スライダーレベル)の相互作用の相補的な情報を取得するために, 早期・後期融合におけるオミック埋め込みの利用を提案する。
この二重融合戦略は、解釈可能性と分類性能を高め、臨床診断の可能性を強調している。
論文 参考訳(メタデータ) (2024-11-26T13:25:53Z) - Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。
プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T15:46:00Z) - Multimodal Prototyping for cancer survival prediction [45.61869793509184]
ギガピクセルヒストロジー全体スライディング画像(WSI)と転写学的プロファイルを組み合わせたマルチモーダルサバイバル法は,患者の予後と成層化に特に有望である。
現在のアプローチでは、WSIを小さなパッチ(>10,000パッチ)にトークン化し、トランスクリプトミクスを遺伝子グループに分割し、結果を予測するためにTransformerを使用して統合する。
このプロセスは多くのトークンを生成し、これは注意を計算するための高いメモリ要求をもたらし、ポストホック解釈可能性分析を複雑にする。
我々のフレームワークは、新しい解釈可能性解析を解き放ちながら、はるかに少ない計算で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-06-28T20:37:01Z) - SELECTOR: Heterogeneous graph network with convolutional masked autoencoder for multimodal robust prediction of cancer survival [8.403756148610269]
がん患者生存のマルチモーダル予測は、より包括的で正確なアプローチを提供する。
本稿では、畳み込みマスクエンコーダに基づく異種グラフ認識ネットワークであるSELECTORを紹介する。
本手法は,モダリティ欠落とモダリティ内情報確認の両事例において,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T11:23:39Z) - Gene-induced Multimodal Pre-training for Image-omic Classification [20.465959546613554]
本稿では、ゲノム情報と全スライド画像(WSI)を併用した遺伝子誘導型マルチモーダル事前学習フレームワークを提案する。
TCGAデータセットによる実験結果から,ネットワークアーキテクチャと事前学習フレームワークの優位性が示され,画像-オミクス分類の精度は99.47%に達した。
論文 参考訳(メタデータ) (2023-09-06T04:30:15Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Free-form tumor synthesis in computed tomography images via richer
generative adversarial network [25.20811195237978]
本稿では,CT画像における3次元腫瘍/レセオン合成のための,よりリッチな生成対向ネットワークを提案する。
このネットワークは、新しいリッチな畳み込み特徴強化拡張拡張型ジェネレータ(richerdg)とハイブリッド損失関数で構成されている。
論文 参考訳(メタデータ) (2021-04-20T00:49:35Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - SAG-GAN: Semi-Supervised Attention-Guided GANs for Data Augmentation on
Medical Images [47.35184075381965]
本稿では,GAN(Cycle-Consistency Generative Adversarial Networks)を用いた医用画像生成のためのデータ拡張手法を提案する。
提案モデルでは,正常画像から腫瘍画像を生成することができ,腫瘍画像から正常画像を生成することもできる。
本研究では,従来のデータ拡張手法と合成画像を用いた分類モデルを用いて,実画像を用いた分類モデルを訓練する。
論文 参考訳(メタデータ) (2020-11-15T14:01:24Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Gleason Grading of Histology Prostate Images through Semantic
Segmentation via Residual U-Net [60.145440290349796]
前立腺癌の最終診断は、病理学者による前立腺生検におけるGleasonパターンの視覚的検出に基づいている。
コンピュータ支援診断システムは、組織内のがんのパターンを分類し分類することができる。
この研究の方法論的核心は、がん組織を分節できる残留ブロックで修正された画像分割のためのU-Net畳み込みニューラルネットワークである。
論文 参考訳(メタデータ) (2020-05-22T19:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。