Fugu-MT 論文翻訳(概要): MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

論文の概要: MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

arxiv url: http://arxiv.org/abs/2602.20223v1
Date: Mon, 23 Feb 2026 13:37:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.478895
Title: MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning
Title（参考訳）: MultiModalPFN:マルチモーダルタブラルラーニングのための事前データフィットネットワークの拡張
Authors: Wall Kim, Chaeyoung Song, Hanul Kim,
Abstract要約: 我々はTabPFNを拡張したMMPFN(Multi-Modal Prior-data Fitted Network)を提案する。 MMPFNは、モダリティ・エンコーダ、モダリティ・プロジェクタ、事前訓練された基礎モデルから構成される。医学および汎用マルチモーダルデータセットの実験は、MMPFNが一貫して競合する最先端の手法より優れていることを示した。
参考スコア（独自算出の注目度）: 3.5939555573102857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, TabPFN has gained attention as a foundation model for tabular data. However, it struggles to integrate heterogeneous modalities such as images and text, which are common in domains like healthcare and marketing, thereby limiting its applicability. To address this, we present the Multi-Modal Prior-data Fitted Network (MMPFN), which extends TabPFN to handle tabular and non-tabular modalities in a unified manner. MMPFN comprises per-modality encoders, modality projectors, and pre-trained foundation models. The modality projectors serve as the critical bridge, transforming non-tabular embeddings into tabular-compatible tokens for unified processing. To this end, we introduce a multi-head gated MLP and a cross-attention pooler that extract richer context from non-tabular inputs while mitigates attention imbalance issue in multimodal learning. Extensive experiments on medical and general-purpose multimodal datasets demonstrate that MMPFN consistently outperforms competitive state-of-the-art methods and effectively exploits non-tabular modalities alongside tabular features. These results highlight the promise of extending prior-data fitted networks to the multimodal setting, offering a scalable and effective framework for heterogeneous data learning. The source code is available at https://github.com/too-z/MultiModalPFN.
Abstract（参考訳）: 近年,TabPFNは表データの基盤モデルとして注目されている。しかし、医療やマーケティングといった分野に共通する画像やテキストなどの異質なモダリティを統合するのに苦労し、適用性を制限している。これを解決するために,TabPFNを拡張したMMPFN(Multi-Modal Prior-data Fitted Network)を提案する。 MMPFNは、モダリティ・エンコーダ、モダリティ・プロジェクタ、事前訓練された基礎モデルから構成される。モダリティプロジェクタはクリティカルブリッジとして機能し、非タブラル埋め込みを統一処理のためのタブ互換トークンに変換する。この目的のために,マルチモーダル学習における注意不均衡問題を緩和しつつ,非タブラル入力からよりリッチなコンテキストを抽出するマルチヘッドゲート型MLPとクロスアテンションプールを導入する。医学および汎用マルチモーダルデータセットに関する大規模な実験は、MMPFNが一貫して最先端の手法よりも優れており、表形式の特徴とともに非タブラルなモダリティを効果的に活用していることを示している。これらの結果は,データ適合型ネットワークをマルチモーダル設定に拡張し,異種データ学習のためのスケーラブルで効果的なフレームワークを提供する,という約束を浮き彫りにしている。ソースコードはhttps://github.com/too-z/MultiModalPFNで入手できる。

関連論文リスト

Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-23T16:53:24Z)
MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning [12.821814562210632]
本稿では,マルチモーダルアテンションに基づく正規化フロー(MANGO)アプローチを提案する。マルチモーダルデータのための正規化フローベースモデルを開発するために,新しい非可逆クロスアテンション層を提案する。また,MMCA(Modality-to-Modality Cross-Attention),IMCA(Inter-Modality Cross-Attention),ICA(Learable Inter-Modality Cross-Attention)の3つの新しいクロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-08-13T18:56:57Z)
TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning [3.559225731091162]
タブラル・イメージ・マルチモーダル・ラーニングは,特に医学的応用において,様々な課題に対して大きな期待を抱いている。最近導入されたTabPFNをベースにした新しいマルチモーダルフレームワークであるTabPFN-Integrated Multimodal Engine (TIME)を提案する。 TIMEは、自然に欠落したデータに対して回復力のある堅牢で強力な埋め込みを生成し、事前訓練された視覚バックボーンの画像特徴と組み合わせる。
論文参考訳（メタデータ） (2025-06-01T03:29:30Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT [11.884646027921173]
分散および異種IoTデータに対するマルチモーダル学習のための新しいデータバインディング手法であるMBBindを提案する。 MMBindは、データの不完全性やドメインシフトの度合いによって、最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-18T23:34:07Z)
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
RegBN: Batch Normalization of Multimodal Data with Regularization [5.293979881130494]
本稿では、RegBNと呼ばれるマルチモーダルデータの正規化のための新しいアプローチを提案する。 RegBNはFrobeniusのノルムを正規化用語として使用して、共同創設者の副作用と、異なるデータソース間の基盤となる依存関係に対処している。 5つの研究領域の8つのデータベース上でRegBNの有効性を検証する。
論文参考訳（メタデータ） (2023-10-01T11:05:45Z)
Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文参考訳（メタデータ） (2023-03-27T07:07:33Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)
Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文参考訳（メタデータ） (2020-11-10T09:53:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。