Fugu-MT 論文翻訳(概要): Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation

論文の概要: Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation

arxiv url: http://arxiv.org/abs/2503.05319v1
Date: Fri, 07 Mar 2025 10:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.968646
Title: Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation
Title（参考訳）: 遠方表現による眼疾患グラフ作成のためのロバストマルチモーダル学習
Authors: Xinkun Wang, Yifang Wang, Senwei Liang, Feilong Tang, Chengzhi Liu, Ming Hu, Chao Hu, Junjun He, Zongyuan Ge, Imran Razzak,
Abstract要約: 医療機器の欠如とデータのプライバシーに関する懸念により、マルチモーダルデータは現実世界のアプリケーションではまれである。伝統的な深層学習法は一般に、潜在空間における表現の学習によってこれらの問題に対処する。著者らはEssence-Point and Disentangle Representation Learning (EDRL)戦略を提案している。
参考スコア（独自算出の注目度）: 30.697291934309206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper discusses how ophthalmologists often rely on multimodal data to improve diagnostic accuracy. However, complete multimodal data is rare in real-world applications due to a lack of medical equipment and concerns about data privacy. Traditional deep learning methods typically address these issues by learning representations in latent space. However, the paper highlights two key limitations of these approaches: (i) Task-irrelevant redundant information (e.g., numerous slices) in complex modalities leads to significant redundancy in latent space representations. (ii) Overlapping multimodal representations make it difficult to extract unique features for each modality. To overcome these challenges, the authors propose the Essence-Point and Disentangle Representation Learning (EDRL) strategy, which integrates a self-distillation mechanism into an end-to-end framework to enhance feature selection and disentanglement for more robust multimodal learning. Specifically, the Essence-Point Representation Learning module selects discriminative features that improve disease grading performance. The Disentangled Representation Learning module separates multimodal data into modality-common and modality-unique representations, reducing feature entanglement and enhancing both robustness and interpretability in ophthalmic disease diagnosis. Experiments on multimodal ophthalmology datasets show that the proposed EDRL strategy significantly outperforms current state-of-the-art methods.
Abstract（参考訳）: 本稿では,眼科医が診断精度を向上させるためにマルチモーダルデータにどのように依存するかを論じる。しかし、医療機器の不足やデータのプライバシーに関する懸念から、実世界のアプリケーションでは完全なマルチモーダルデータはまれである。伝統的な深層学習法は一般に、潜在空間における表現の学習によってこれらの問題に対処する。しかし、この論文はこれらのアプローチの2つの重要な制限を強調している。 i) 複雑なモダリティにおけるタスク非関連冗長情報(例えば、多数のスライス)は、潜在空間表現において顕著な冗長性をもたらす。 (2)重なり合う多重モーダル表現は、各モーダルに対して固有の特徴を抽出することが困難である。これらの課題を克服するために、著者らは、より堅牢なマルチモーダル学習のための特徴選択と非絡み合いを高めるために、自己蒸留機構をエンドツーエンドフレームワークに統合するEssence-Point and Disentangle Representation Learning (EDRL)戦略を提案する。具体的には、Essence-Point Representation Learningモジュールは、疾患のグレーディング性能を向上させる識別的特徴を選択する。 Disentangled Representation Learningモジュールは、マルチモーダルデータをモダリティ・共通表現とモダリティ・特異表現に分離し、特徴的絡みを減らし、眼科疾患の診断における堅牢性と解釈性の両方を高める。マルチモーダル眼科データセットの実験では、提案したEDRLストラテジーが現在の最先端手法を大きく上回っていることが示されている。

関連論文リスト

Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention [52.106879463828044]
病理組織学と転写学は、腫瘍学の基本的なモダリティであり、疾患の形態学的および分子的側面を包含している。モーダルアライメントと保持を両立させる新しいマルチモーダル表現学習法であるMIRRORを提案する。がんの亜型化と生存分析のためのTCGAコホートに関する広範囲な評価は,MIRRORの優れた性能を浮き彫りにしている。
論文参考訳（メタデータ） (2025-03-01T07:02:30Z)
Incomplete Modality Disentangled Representation for Ophthalmic Disease Grading and Diagnosis [16.95583564875497]
本稿では,不完全なモダリティ・ディアンタングル表現(IMDR)戦略を提案する。 4つのマルチモーダルデータセットの実験により、提案したIMDRが最先端の手法を大幅に上回ることを示した。
論文参考訳（メタデータ） (2025-02-17T12:10:35Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
A Learnable Multi-views Contrastive Framework with Reconstruction Discrepancy for Medical Time-Series [8.741139851597364]
本稿では、関連するタスクから外部データを取り込み、AE-GANを利用して事前知識を抽出することを提案する。マルチヘッドアテンション機構を統合し,異なる視点から表現を適応的に学習するフレームワークであるLMCFを紹介する。 3つのターゲットデータセットの実験により、我々の手法が他の7つのベースラインを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-01-30T14:20:11Z)
Multimodal Fusion Learning with Dual Attention for Medical Imaging [8.74917075651321]
マルチモーダル・フュージョン・ラーニングは皮膚癌や脳腫瘍など様々な疾患の分類において有望である。既存のメソッドには3つの重要な制限がある。 DRIFAは、ディープニューラルネットワークと統合することができ、DRIFA-Netと呼ばれるマルチモーダル融合学習フレームワークを形成する。
論文参考訳（メタデータ） (2024-12-02T08:11:12Z)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。 GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文参考訳（メタデータ） (2024-09-17T17:22:35Z)
HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。 The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。 HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-15T17:06:26Z)
Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。 on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文参考訳（メタデータ） (2022-01-07T07:46:01Z)
Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文参考訳（メタデータ） (2020-02-22T14:32:04Z)
MS-Net: Multi-Site Network for Improving Prostate Segmentation with Heterogeneous MRI Data [75.73881040581767]
本稿では,ロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。当社のMS-Netは,すべてのデータセットのパフォーマンスを一貫して改善し,マルチサイト学習における最先端の手法よりも優れています。
論文参考訳（メタデータ） (2020-02-09T14:11:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。