論文の概要: Disentangling Shared and Task-Specific Representations from Multi-Modal Clinical Data
- arxiv url: http://arxiv.org/abs/2605.03570v1
- Date: Tue, 05 May 2026 09:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.87758
- Title: Disentangling Shared and Task-Specific Representations from Multi-Modal Clinical Data
- Title(参考訳): マルチモーダルな臨床データからの共有化とタスク特化表現
- Authors: He Lyu, Huolin Zeng, Junren Wang, Huazhen Yang, Linchao He, Yong Chen, Zhirui Li, Andreas Maier, Siming Bayer, Huan Song,
- Abstract要約: 患者表現を共有部分空間とタスク固有の部分空間に分割するマルチモーダル融合のための統合トランスフォーマー上に構築されたマルチタスクフレームワークを提案する。
手術患者12,430名を対象にOrthTDを実世界のコホートで評価し,4つの結果が得られた。
- 参考スコア(独自算出の注目度): 8.493390194430592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world clinical data is inherently multimodal, providing complementary evidence that mirrors the practical necessity of jointly assessing multiple related outcomes. Although multi-task learning can improve efficiency by sharing information across outcomes, existing approaches often fail to balance shared representation learning with outcome-specific modeling. Hard parameter sharing can trigger negative transfer when task gradients conflict, while flexible sharing may still entangle shared and task-specific signals. To address this, we propose a multi-task framework built on a unified Transformer for multimodal fusion, augmented with Orthogonal Task Decomposition (OrthTD) to split patient representations into shared and task-specific subspaces and impose a geometric orthogonality constraint to reduce redundancy and isolate task-specific signals. We evaluated OrthTD on a real-world cohort of 12,430 surgical patients for predicting four outcomes. OrthTD achieved average AUC (area under the receiver operating characteristic curve) of 87.5% and average AUPRC (area under the precision-recall curve) of 37.2%, consistently outperformed advanced tabular and multi-task methods. Notably, OrthTD achieves substantial gains in AUPRC, indicating superior performance in identifying rare events within imbalanced clinical data. These results suggest that enforcing non-redundant shared and task-specific representations can improve multi-outcome prediction from multimodal clinical data.
- Abstract(参考訳): 実世界の臨床データは本質的にマルチモーダルであり、複数の関連する結果を共同で評価する実践的な必要性を反映する補完的な証拠を提供する。
マルチタスク学習は、結果間で情報を共有することで効率を向上させることができるが、既存のアプローチでは、共有表現学習と結果固有のモデリングのバランスが取れないことが多い。
ハードパラメータの共有は、タスクグラデーションが競合するときに負の転送を引き起こすことがあるが、フレキシブルな共有は、共有信号とタスク固有のシグナルを絡み合わせることがある。
そこで本研究では,マルチモーダルフュージョンのための統合トランスフォーマー上に構築されたマルチタスクフレームワークを提案する。Orthogonal Task Decomposition (OrthTD) により,患者表現を共有部分空間とタスク固有部分空間に分割し,冗長性を低減し,タスク固有信号を分離するための幾何学的直交制約を課す。
手術患者12,430名を対象にOrthTDを実世界のコホートで評価し,4つの結果が得られた。
OrthTDは平均AUC(受信機動作特性曲線下)87.5%、平均AUPRC(高精度リコール曲線下)37.2%を達成した。
特にOrthTDはAUPRCでかなりの上昇を示し、不均衡な臨床データの中で稀な事象を特定するのに優れた性能を示した。
これらの結果から,非冗長な共有表現やタスク固有の表現を強制することで,マルチモーダルな臨床データからのマルチアウトカム予測が向上する可能性が示唆された。
関連論文リスト
- Understanding Task Aggregation for Generalizable Ultrasound Foundation Models [4.4775919772138515]
我々は,DINOv3上に構築されたマルチ組織マルチタスクフレームワークであるM2DINOを紹介した。
課題特化, 臨床グループ化, 全タスク統合トレーニングの3つのパラダイムにおいて, セグメンテーション, 分類, 検出, 回帰にまたがる27の超音波タスクを評価する。
その結果,アグリゲーションの有効性はトレーニングデータ尺度に強く依存していることがわかった。
論文 参考訳(メタデータ) (2026-03-18T16:43:43Z) - Developing Fairness-Aware Task Decomposition to Improve Equity in Post-Spinal Fusion Complication Prediction [3.860970992977915]
術後合併症予測のための公平性を考慮したマルチタスク学習フレームワークを提案する。
FAIR-MTLはデータ駆動型サブグループ推論機構を採用している。
AUCは0.86であり、75%の精度でシングルタスクベースラインを上回り、バイアスを大幅に低減する。
論文 参考訳(メタデータ) (2025-11-29T19:06:07Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - FlexCare: Leveraging Cross-Task Synergy for Flexible Multimodal Healthcare Prediction [34.732561455987145]
我々は、不完全なマルチモーダル入力に柔軟に対応するために、textbfFlexCareという統合医療予測モデルを提案する。
タスクに依存しないマルチモーダル情報抽出モジュールを提示し、多様なモダリティ内およびモダリティ間パターンの非相関表現をキャプチャする。
MIMIC-IV/MIMIC-CXR/MIMIC-NOTEデータセットによる複数のタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-17T12:03:10Z) - Multi-Dataset Multi-Task Learning for COVID-19 Prognosis [25.371798627482065]
胸部X線による新型コロナウイルスの予後を予測できる新しいマルチデータセット・マルチタスク・トレーニング・フレームワークを提案する。
本フレームワークは,重大度スコアを評価することによって,重大度グループを分類するモデルの能力を高めることを仮定する。
論文 参考訳(メタデータ) (2024-05-22T15:57:44Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。