論文の概要: MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning
- arxiv url: http://arxiv.org/abs/2602.20223v1
- Date: Mon, 23 Feb 2026 13:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.478895
- Title: MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning
- Title(参考訳): MultiModalPFN:マルチモーダルタブラルラーニングのための事前データフィットネットワークの拡張
- Authors: Wall Kim, Chaeyoung Song, Hanul Kim,
- Abstract要約: 我々はTabPFNを拡張したMMPFN(Multi-Modal Prior-data Fitted Network)を提案する。
MMPFNは、モダリティ・エンコーダ、モダリティ・プロジェクタ、事前訓練された基礎モデルから構成される。
医学および汎用マルチモーダルデータセットの実験は、MMPFNが一貫して競合する最先端の手法より優れていることを示した。
- 参考スコア(独自算出の注目度): 3.5939555573102857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, TabPFN has gained attention as a foundation model for tabular data. However, it struggles to integrate heterogeneous modalities such as images and text, which are common in domains like healthcare and marketing, thereby limiting its applicability. To address this, we present the Multi-Modal Prior-data Fitted Network (MMPFN), which extends TabPFN to handle tabular and non-tabular modalities in a unified manner. MMPFN comprises per-modality encoders, modality projectors, and pre-trained foundation models. The modality projectors serve as the critical bridge, transforming non-tabular embeddings into tabular-compatible tokens for unified processing. To this end, we introduce a multi-head gated MLP and a cross-attention pooler that extract richer context from non-tabular inputs while mitigates attention imbalance issue in multimodal learning. Extensive experiments on medical and general-purpose multimodal datasets demonstrate that MMPFN consistently outperforms competitive state-of-the-art methods and effectively exploits non-tabular modalities alongside tabular features. These results highlight the promise of extending prior-data fitted networks to the multimodal setting, offering a scalable and effective framework for heterogeneous data learning. The source code is available at https://github.com/too-z/MultiModalPFN.
- Abstract(参考訳): 近年,TabPFNは表データの基盤モデルとして注目されている。
しかし、医療やマーケティングといった分野に共通する画像やテキストなどの異質なモダリティを統合するのに苦労し、適用性を制限している。
これを解決するために,TabPFNを拡張したMMPFN(Multi-Modal Prior-data Fitted Network)を提案する。
MMPFNは、モダリティ・エンコーダ、モダリティ・プロジェクタ、事前訓練された基礎モデルから構成される。
モダリティプロジェクタはクリティカルブリッジとして機能し、非タブラル埋め込みを統一処理のためのタブ互換トークンに変換する。
この目的のために,マルチモーダル学習における注意不均衡問題を緩和しつつ,非タブラル入力からよりリッチなコンテキストを抽出するマルチヘッドゲート型MLPとクロスアテンションプールを導入する。
医学および汎用マルチモーダルデータセットに関する大規模な実験は、MMPFNが一貫して最先端の手法よりも優れており、表形式の特徴とともに非タブラルなモダリティを効果的に活用していることを示している。
これらの結果は,データ適合型ネットワークをマルチモーダル設定に拡張し,異種データ学習のためのスケーラブルで効果的なフレームワークを提供する,という約束を浮き彫りにしている。
ソースコードはhttps://github.com/too-z/MultiModalPFNで入手できる。
関連論文リスト
- TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning [3.559225731091162]
タブラル・イメージ・マルチモーダル・ラーニングは,特に医学的応用において,様々な課題に対して大きな期待を抱いている。
最近導入されたTabPFNをベースにした新しいマルチモーダルフレームワークであるTabPFN-Integrated Multimodal Engine (TIME)を提案する。
TIMEは、自然に欠落したデータに対して回復力のある堅牢で強力な埋め込みを生成し、事前訓練された視覚バックボーンの画像特徴と組み合わせる。
論文 参考訳(メタデータ) (2025-06-01T03:29:30Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT [11.884646027921173]
分散および異種IoTデータに対するマルチモーダル学習のための新しいデータバインディング手法であるMBBindを提案する。
MMBindは、データの不完全性やドメインシフトの度合いによって、最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-18T23:34:07Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - RegBN: Batch Normalization of Multimodal Data with Regularization [5.293979881130494]
本稿では、RegBNと呼ばれるマルチモーダルデータの正規化のための新しいアプローチを提案する。
RegBNはFrobeniusのノルムを正規化用語として使用して、共同創設者の副作用と、異なるデータソース間の基盤となる依存関係に対処している。
5つの研究領域の8つのデータベース上でRegBNの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-01T11:05:45Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。