論文の概要: Code and Pixels: Multi-Modal Contrastive Pre-training for Enhanced Tabular Data Analysis
- arxiv url: http://arxiv.org/abs/2501.07304v1
- Date: Mon, 13 Jan 2025 13:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:22.894641
- Title: Code and Pixels: Multi-Modal Contrastive Pre-training for Enhanced Tabular Data Analysis
- Title(参考訳): Code and Pixels: 拡張タブラルデータ分析のためのマルチモーダルコントラスト事前トレーニング
- Authors: Kankana Roy, Lars Krämer, Sebastian Domaschke, Malik Haris, Roland Aydin, Fabian Isensee, Martin Held,
- Abstract要約: MT-CMTM(Multi-task Contrastive Masked Tabular Modeling)を提案する。
これらのデータモーダル間の相乗効果を最適化し、コントラスト学習とマスク付き表形式モデリングを組み合わせた二重戦略を用いる。
我々のアプローチの中心は、残差接続と注意機構を備えた1次元畳み込みニューラルネットワーク(1D-ResNet-CBAM)である。
- 参考スコア(独自算出の注目度): 3.640521552987694
- License:
- Abstract: Learning from tabular data is of paramount importance, as it complements the conventional analysis of image and video data by providing a rich source of structured information that is often critical for comprehensive understanding and decision-making processes. We present Multi-task Contrastive Masked Tabular Modeling (MT-CMTM), a novel method aiming to enhance tabular models by leveraging the correlation between tabular data and corresponding images. MT-CMTM employs a dual strategy combining contrastive learning with masked tabular modeling, optimizing the synergy between these data modalities. Central to our approach is a 1D Convolutional Neural Network with residual connections and an attention mechanism (1D-ResNet-CBAM), designed to efficiently process tabular data without relying on images. This enables MT-CMTM to handle purely tabular data for downstream tasks, eliminating the need for potentially costly image acquisition and processing. We evaluated MT-CMTM on the DVM car dataset, which is uniquely suited for this particular scenario, and the newly developed HIPMP dataset, which connects membrane fabrication parameters with image data. Our MT-CMTM model outperforms the proposed tabular 1D-ResNet-CBAM, which is trained from scratch, achieving a relative 1.48% improvement in relative MSE on HIPMP and a 2.38% increase in absolute accuracy on DVM. These results demonstrate MT-CMTM's robustness and its potential to advance the field of multi-modal learning.
- Abstract(参考訳): 図表データから学ぶことは、包括的な理解と意思決定プロセスに不可欠な構造化された情報の豊富な情報源を提供することによって、画像と映像データの従来の分析を補完する上で、最重要となる。
本稿では,表層データと対応する画像の相関を利用して表層モデルを強化することを目的とした,マルチタスク・コントラスト・マスク付きタブラルモデリング(MT-CMTM)を提案する。
MT-CMTMは、対比学習とマスク付き表形式モデリングを組み合わせた二重戦略を用いて、これらのデータモダリティ間の相乗効果を最適化する。
提案手法の中心となる1次元畳み込みニューラルネットワークは,残差接続と注意機構(1D-ResNet-CBAM)を備える。
これにより、MT-CMTMは、ダウンストリームタスクの純粋にタブ形式のデータを処理することができ、潜在的にコストのかかる画像取得と処理の必要性をなくすことができる。
このシナリオに特に適しているDVMカーデータセットと,膜形成パラメータと画像データとを結合したHIPMPデータセットを用いてMT-CMTMを評価した。
MT-CMTMモデルでは1D-ResNet-CBAMをスクラッチからトレーニングし,HIPMPの相対MSEが1.48%向上し,DVMの絶対精度が2.38%向上した。
これらの結果は,MT-CMTMの頑健性と,マルチモーダル学習の分野を前進させる可能性を示している。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Enhancing CT Image synthesis from multi-modal MRI data based on a
multi-task neural network framework [16.864720020158906]
拡張型Transformer U-Netアーキテクチャに基づく多目的マルチタスクニューラルネットワークフレームワークを提案する。
我々はCT画像を個別のサブタスクに分解する従来の問題を分解する。
マルチモーダルデータを扱う際のフレームワークの汎用性を高めるため,複数の画像チャネルでモデルを拡張した。
論文 参考訳(メタデータ) (2023-12-13T18:22:38Z) - Weakly supervised cross-modal learning in high-content screening [0.0]
本稿では,創薬のための画像データと分子表現の相互表現を学習するための新しいアプローチを提案する。
弱い監視機能を利用するCLIP上に構築された2つの革新的な損失関数であるEMMとIMMを提案する。
また,必要な空間を85Tbからわずか7Tbまで効果的に削減するJUMP-CPデータセットの事前処理手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T13:35:08Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。