論文の概要: TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning
- arxiv url: http://arxiv.org/abs/2506.00813v1
- Date: Sun, 01 Jun 2025 03:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.222254
- Title: TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning
- Title(参考訳): TIME:ロバストなタブラル画像学習のためのタブPFN内蔵マルチモーダルエンジン
- Authors: Jiaqi Luo, Yuan Yuan, Shixin Xu,
- Abstract要約: タブラル・イメージ・マルチモーダル・ラーニングは,特に医学的応用において,様々な課題に対して大きな期待を抱いている。
最近導入されたTabPFNをベースにした新しいマルチモーダルフレームワークであるTabPFN-Integrated Multimodal Engine (TIME)を提案する。
TIMEは、自然に欠落したデータに対して回復力のある堅牢で強力な埋め込みを生成し、事前訓練された視覚バックボーンの画像特徴と組み合わせる。
- 参考スコア(独自算出の注目度): 3.559225731091162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular-image multimodal learning, which integrates structured tabular data with imaging data, holds great promise for a variety of tasks, especially in medical applications. Yet, two key challenges remain: (1) the lack of a standardized, pretrained representation for tabular data, as is commonly available in vision and language domains; and (2) the difficulty of handling missing values in the tabular modality, which are common in real-world medical datasets. To address these issues, we propose the TabPFN-Integrated Multimodal Engine (TIME), a novel multimodal framework that builds on the recently introduced tabular foundation model, TabPFN. TIME leverages TabPFN as a frozen tabular encoder to generate robust, strong embeddings that are naturally resilient to missing data, and combines them with image features from pretrained vision backbones. We explore a range of fusion strategies and tabular encoders, and evaluate our approach on both natural and medical datasets. Extensive experiments demonstrate that TIME consistently outperforms competitive baselines across both complete and incomplete tabular inputs, underscoring its practical value in real-world multimodal learning scenarios.
- Abstract(参考訳): 構造化表型データと画像データを統合したタブラル画像マルチモーダル学習は,特に医学的応用において,様々な課題に対して大きな期待を抱いている。
しかし、(1)視覚領域や言語領域で一般的に見られるような、表データの標準化された事前訓練された表現の欠如、(2)現実の医療データセットで一般的な表のモダリティにおける欠落値の扱いの難しさ、の2つの課題が残されている。
これらの問題に対処するため,TabPFN-Integrated Multimodal Engine (TIME)を提案する。
TIMEはTabPFNを凍結した表型エンコーダとして利用し、不自由なデータに対して自然に回復する堅牢で強力な埋め込みを生成し、事前訓練された視覚バックボーンの画像特徴と組み合わせている。
我々は、様々な融合戦略と表型エンコーダを探索し、我々のアプローチを自然と医学の両方のデータセットで評価する。
大規模な実験により、TIMEは、実世界のマルチモーダル学習シナリオにおける実用的価値を強調し、完全および不完全な表型入力の両方で競争ベースラインを一貫して上回ることを示した。
関連論文リスト
- A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。
本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data [6.414759311130015]
不完全なデータに頑健なマルチモーダル表現を学習するための新しいフレームワークであるTIPを提案する。
具体的には、TIPは、データ不足に対処するためのマスク付き再構築タスクを含む、自己教師付き学習(SSL)戦略を調査する。
TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSLイメージ/マルチモーダルアルゴリズムより優れている。
論文 参考訳(メタデータ) (2024-07-10T12:16:15Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - Best of Both Worlds: Multimodal Contrastive Learning with Tabular and
Imaging Data [7.49320945341034]
単調エンコーダを学習するための自己指導型コントラスト学習フレームワークを提案する。
我々のソリューションは、2つの主要なコントラスト学習戦略であるSimCLRとSCARFを組み合わせています。
DVMカー広告データセットを用いて,自然画像へのアプローチの一般化可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T15:44:42Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。