Fugu-MT 論文翻訳(概要): Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers

論文の概要: Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers

arxiv url: http://arxiv.org/abs/2501.18237v1
Date: Thu, 30 Jan 2025 09:52:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.105388
Title: Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers
Title（参考訳）: 画像としての任意データ: モダリティにおける患者データの融合と視覚変換器による不規則間隔
Authors: Malte Tölle, Mohamad Scharaf, Samantha Fischer, Christoph Reich, Silav Zeid, Christoph Dieterich, Benjamin Meder, Norbert Frey, Philipp Wild, Sandy Engelhardt,
Abstract要約: 不規則サンプルマルチモーダル計測(ViTiMM)のためのビジョントランス MIMIC-IVデータセットから6,175人の患者を対象に,不規則標本化マルチモーダル計測(ViTiMM)のビジョントランスフォーマーを用いて,データ前処理とモデリングを簡略化するだけでなく,院内死亡と表現の予測における最先端の手法よりも優れていた。私たちの研究は、トレーニングの複雑さを(視覚的に)迅速なエンジニアリングに還元し、参入障壁を低くし、トレーニングのためのノーコードソリューションを可能にすることで、マルチモーダルな医療AIの進歩を促すことを願っています。
参考スコア（独自算出の注目度）: 1.194275822303467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A patient undergoes multiple examinations in each hospital stay, where each provides different facets of the health status. These assessments include temporal data with varying sampling rates, discrete single-point measurements, therapeutic interventions such as medication administration, and images. While physicians are able to process and integrate diverse modalities intuitively, neural networks need specific modeling for each modality complicating the training procedure. We demonstrate that this complexity can be significantly reduced by visualizing all information as images along with unstructured text and subsequently training a conventional vision-text transformer. Our approach, Vision Transformer for irregular sampled Multi-modal Measurements (ViTiMM), not only simplifies data preprocessing and modeling but also outperforms current state-of-the-art methods in predicting in-hospital mortality and phenotyping, as evaluated on 6,175 patients from the MIMIC-IV dataset. The modalities include patient's clinical measurements, medications, X-ray images, and electrocardiography scans. We hope our work inspires advancements in multi-modal medical AI by reducing the training complexity to (visual) prompt engineering, thus lowering entry barriers and enabling no-code solutions for training. The source code will be made publicly available.
Abstract（参考訳）: 患者は各病院留置所で複数の検査を受け、それぞれが健康状態の異なる面を提供している。これらの評価には、サンプリング率の異なる時間データ、個別の単一点測定、薬物投与などの治療介入、画像が含まれる。医師は様々なモダリティを直感的に処理し、統合することができるが、ニューラルネットワークはトレーニング手順を複雑にする各モダリティの特定のモデリングを必要とする。この複雑さは、構造化されていないテキストとともに、すべての情報を画像として可視化し、その後、従来の視覚テキスト変換器を訓練することで、大幅に低減できることを示す。 MIMIC-IVデータセットから6,175人の患者を対象に,不規則標本化マルチモーダル計測(ViTiMM)のビジョントランスフォーマーを用いて,データ前処理とモデリングを簡略化するだけでなく,院内死亡と表現の予測における最先端の手法よりも優れていた。モダリティには、患者の臨床的測定、薬品、X線画像、心電図スキャンが含まれる。私たちの研究は、トレーニングの複雑さを(視覚的に)迅速なエンジニアリングに還元し、参入障壁を低くし、トレーニングのためのノーコードソリューションを可能にすることで、マルチモーダルな医療AIの進歩を促すことを願っています。ソースコードは一般公開される予定だ。

関連論文リスト

Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities [0.0]
BM-MAEはマルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略である。利用可能なモダリティの組み合わせにシームレスに適応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
論文参考訳（メタデータ） (2025-05-01T14:51:30Z)
Learning General-Purpose Biomedical Volume Representations using Randomized Synthesis [9.355513913682794]
現在のバイオメディカルファンデーションモデルは、パブリックな3Dデータセットが小さいため、一般化に苦慮している。本稿では,新しいバイオメディカルコンテキストへの一般化を可能にする,高度に可変なトレーニングサンプルを合成するデータエンジンを提案する。次に, ボクセルレベルのタスクに対して1つの3Dネットワークをトレーニングするために, データエンジンでシミュレートされたニュアンス画像の変動に対して, ネットワークが安定であるように事前訓練するコントラスト学習手法を開発した。
論文参考訳（メタデータ） (2024-11-04T18:40:46Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
Overcoming challenges of translating deep-learning models for glioblastoma: the ZGBM consortium [0.9338156173462939]
方法: MRデータは、ZGBMコンソーシアムの5つのコンソーシアムにまたがる前向きコホートから、ランダムな5人のサンプルから分析された。 DICOMヘッダ情報とともに臨床および治療データを解析し,治療経路の撮影スケジュールを把握した。全ての部位は、前外科的な研究を除いて、経路内のすべての段階において構造的イメージングを行い、いくつかの部位ではコントラスト強化T1強調画像のみを実行する。拡散MRIは、最も一般的な非構造イメージングタイプであり、各部位で実行される。
論文参考訳（メタデータ） (2024-05-07T10:04:08Z)
HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文参考訳（メタデータ） (2024-03-20T05:50:04Z)
Building Universal Foundation Models for Medical Image Analysis with Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。 55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文参考訳（メタデータ） (2023-12-12T08:33:45Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Generalizing Medical Image Representations via Quaternion Wavelet Networks [9.836302410524842]
医用画像から健全な特徴を抽出できる,新しい,一般化可能な,データに依存しないフレームワークを提案する。提案する4元ウェーブレットネットワーク(quaVE)は,既存の医用画像解析や合成作業と容易に統合できる。
論文参考訳（メタデータ） (2023-10-16T09:34:06Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Medical diffusion on a budget: Textual Inversion for medical image generation [3.0826983115939823]
スクラッチからトレーニングするには、大きなキャプション付きデータセットと重要な計算リソースが必要である。本研究は, 予め訓練した安定拡散モデルを医用画像モダリティに適応させることが, テキスト埋め込みの訓練によって達成可能であることを示す。トレーニングされた埋め込みはコンパクト(1MB未満)で、プライバシー上の懸念を減らしてデータ共有を容易にする。
論文参考訳（メタデータ） (2023-03-23T16:50:19Z)
CheXstray: Real-time Multi-Modal Data Concordance for Drift Detection in Medical Imaging AI [1.359138408203412]
医用画像AIドリフトモニタリングワークフローを構築してテストし、同時代の地上真実なしにデータとモデルドリフトを追跡する。主な貢献は,(1)VAEおよび領域特異的統計手法を含む医用画像ドリフト検出のための概念実証である。この研究は、動的医療環境における継続的医療画像AIモデルモニタリングに関連する翻訳ギャップに対処するために重要な意味を持つ。
論文参考訳（メタデータ） (2022-02-06T18:58:35Z)
Solving Inverse Problems in Medical Imaging with Score-Based Generative Models [87.48867245544106]
CT(Computed Tomography)とMRI(Magnetic Resonance Imaging)における医用画像の再構成は重要な逆問題である機械学習に基づく既存のソリューションは通常、測定結果を医療画像に直接マッピングするモデルを訓練する。本稿では,最近導入されたスコアベース生成モデルを利用して,逆問題解決のための教師なし手法を提案する。
論文参考訳（メタデータ） (2021-11-15T05:41:12Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)
Convolutional-LSTM for Multi-Image to Single Output Medical Prediction [55.41644538483948]
発展途上国の一般的なシナリオは、複数の理由からボリュームメタデータが失われることである。ヒトの診断過程を模倣したマルチイメージから単一診断モデルを得ることが可能である。
論文参考訳（メタデータ） (2020-10-20T04:30:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。