論文の概要: Efficient Multi-Slide Visual-Language Feature Fusion for Placental Disease Classification
- arxiv url: http://arxiv.org/abs/2508.03277v1
- Date: Tue, 05 Aug 2025 09:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.90031
- Title: Efficient Multi-Slide Visual-Language Feature Fusion for Placental Disease Classification
- Title(参考訳): 胎盤疾患分類における多段階視覚機能融合の有用性
- Authors: Hang Guo, Qing Zhang, Zixuan Gao, Siyuan Yang, Shulin Peng, Xiang Tao, Ting Yu, Yan Wang, Qingli Li,
- Abstract要約: 本研究では,EMmPDと命名された患者レベルの胎盤疾患診断のための効率的なマルチモーダルフレームワークを提案する。
本稿では,パラメータフリーと学習可能な圧縮戦略を組み合わせた2段階のパッチ選択モジュールを提案する。
我々は適応的なグラフ学習を活用して病理的特徴表現を強化するハイブリッドマルチモーダル融合モジュールを開発した。
- 参考スコア(独自算出の注目度): 20.137166016134636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate prediction of placental diseases via whole slide images (WSIs) is critical for preventing severe maternal and fetal complications. However, WSI analysis presents significant computational challenges due to the massive data volume. Existing WSI classification methods encounter critical limitations: (1) inadequate patch selection strategies that either compromise performance or fail to sufficiently reduce computational demands, and (2) the loss of global histological context resulting from patch-level processing approaches. To address these challenges, we propose an Efficient multimodal framework for Patient-level placental disease Diagnosis, named EmmPD. Our approach introduces a two-stage patch selection module that combines parameter-free and learnable compression strategies, optimally balancing computational efficiency with critical feature preservation. Additionally, we develop a hybrid multimodal fusion module that leverages adaptive graph learning to enhance pathological feature representation and incorporates textual medical reports to enrich global contextual understanding. Extensive experiments conducted on both a self-constructed patient-level Placental dataset and two public datasets demonstrating that our method achieves state-of-the-art diagnostic performance. The code is available at https://github.com/ECNU-MultiDimLab/EmmPD.
- Abstract(参考訳): 胎盤画像(WSI)による胎盤疾患の正確な予測は、重篤な母体・胎児合併症の予防に重要である。
しかし、WSI分析は膨大なデータ量のため、重大な計算上の課題を呈している。
既存のWSI分類手法では,(1)性能を損なうか,あるいは計算要求を十分に低減できないパッチ選択戦略が不十分であり,(2)パッチレベルの処理アプローチによるグローバルな組織学的コンテキストの喪失である。
これらの課題に対処するために,EMmPDという患者レベルの胎盤疾患診断のための効率的なマルチモーダル・フレームワークを提案する。
提案手法では,パラメータフリーと学習可能な圧縮戦略を組み合わせた2段階のパッチ選択モジュールを導入し,計算効率と重要な特徴保存を最適にバランスさせる。
さらに,適応的なグラフ学習を活用して病的特徴表現を強化するハイブリッドマルチモーダル融合モジュールを開発した。
自己構築型Placental データセットと2つの公開データセットを併用し,本手法が最先端の診断性能を実現することを実証した。
コードはhttps://github.com/ECNU-MultiDimLab/EmmPDで公開されている。
関連論文リスト
- Decentralized LoRA Augmented Transformer with Context-aware Multi-scale Feature Learning for Secured Eye Diagnosis [2.1358421658740214]
本稿では、コンテキスト認識型マルチスケールパッチ埋め込み、ローランド適応(LoRA)、知識蒸留、フェデレーション学習を統合し、これらの課題に統一的に対処する新しいデータ効率画像変換器(DeiT)ベースのフレームワークを提案する。
提案モデルでは,マルチスケールパッチ表現と局所的および大域的注意機構を活用することで,局所的および大域的網膜特徴を効果的に捉えている。
論文 参考訳(メタデータ) (2025-05-11T13:51:56Z) - TUMLS: Trustful Fully Unsupervised Multi-Level Segmentation for Whole Slide Images of Histology [41.94295877935867]
We present a Trustful fully unsupervised multi-level segmentation method (TUMLS) for whole slide image (WSIs)。
TUMLSは、低解像度のトレーニングデータの中で異なる組織タイプを特定するために、オートエンコーダ(AE)を特徴抽出器として採用している。
このソリューションは、臨床医にシームレスに統合され、WSI全体の検査を簡潔で解釈可能なクロスレベル洞察のレビューに変換する。
論文 参考訳(メタデータ) (2025-04-17T07:48:05Z) - Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment [0.8458496687170665]
うつ病やPTSDなどの精神疾患の世界的な流行は、客観的でスケーラブルな診断ツールを必要とする。
本稿では、テキスト、音声、ビデオデータに相補的な情報を活用することで、これらの課題に対処するためのマルチモーダル機械学習の可能性を検討する。
大規模言語モデル予測の新たな統合を含む,データレベル,機能レベル,意思決定レベルの融合技術について検討する。
論文 参考訳(メタデータ) (2025-04-02T14:19:06Z) - Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation [30.697291934309206]
医療機器の欠如とデータのプライバシーに関する懸念により、マルチモーダルデータは現実世界のアプリケーションではまれである。
伝統的な深層学習法は一般に、潜在空間における表現の学習によってこれらの問題に対処する。
著者らはEssence-Point and Disentangle Representation Learning (EDRL)戦略を提案している。
論文 参考訳(メタデータ) (2025-03-07T10:58:38Z) - Partially Supervised Unpaired Multi-Modal Learning for Label-Efficient Medical Image Segmentation [53.723234136550055]
我々は、新しい学習パラダイムを部分教師付き無ペア型マルチモーダルラーニング(PSUMML)と呼ぶ。
そこで我々は,DEST (Ensembled Self-Training) フレームワークを用いた新しい部分クラス適応法を提案する。
我々のフレームワークは、部分的にラベル付けされていないマルチモーダルデータを用いて学習するためのモダリティ特定正規化層を持つコンパクトなセグメンテーションネットワークで構成されている。
論文 参考訳(メタデータ) (2025-03-07T07:22:42Z) - FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification [4.148491257542209]
少ないショット学習は、計算病理学における癌診断の重要な解決策である。
このパラダイムにおける重要な課題は、スライド画像全体(WSI)の限られたトレーニングセットと膨大な数のパッチとの間の固有の相違に起因する。
我々は、診断関連領域の集中分析を可能にするために、知識強化型適応型視覚圧縮フレームワーク、FOCUSを紹介した。
論文 参考訳(メタデータ) (2024-11-22T05:36:38Z) - HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models [48.87160158792048]
本稿では,高分解能CTボリュームをメモリ効率よく合成できるCA-LDM(Cascaded amortized Latent diffusion model)を提案する。
公開高解像度OCTデータセットを用いた実験により、我々の合成データは、既存の手法の能力を超越した、現実的な高解像度かつグローバルな特徴を持つことが示された。
論文 参考訳(メタデータ) (2024-05-26T10:58:22Z) - Communication-Efficient Hybrid Federated Learning for E-health with Horizontal and Vertical Data Partitioning [67.49221252724229]
E-Healthは、スマートデバイスや医療機関が患者のデータを共同で収集することを可能にする。
eヘルスにフェデレートされた学習を適用することは、多くの課題に直面します。
医療データは水平および垂直に分割される。
HFLとVFLの単純な組み合わせには、訓練効率の低下、難聴収束分析、パラメータチューニング戦略の欠如など、制限がある。
論文 参考訳(メタデータ) (2024-04-15T19:45:07Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Cross-Site Severity Assessment of COVID-19 from CT Images via Domain
Adaptation [64.59521853145368]
CT画像によるコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は,集中治療単位のイベント推定に有効である。
ラベル付きデータを拡張し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。
この課題は、軽度の感染症と重度の感染症の集団不均衡、部位間のドメイン分布の相違、不均一な特徴の存在など、いくつかの課題に直面する。
論文 参考訳(メタデータ) (2021-09-08T07:56:51Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。