論文の概要: MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image
- arxiv url: http://arxiv.org/abs/2605.10616v1
- Date: Mon, 11 May 2026 14:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.88273
- Title: MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image
- Title(参考訳): MulTaBench: テキストとイメージによるマルチモーダルタブラルラーニングのベンチマーク
- Authors: Alan Arazi, Eilam Shapira, Shoham Grunblat, Mor Ventura, Elad Hoffer, Gioia Blayer, David Holzmüller, Lennart Purucker, Gaël Varoquaux, Frank Hutter, Roi Reichart,
- Abstract要約: MulTaBenchは40のデータセットのベンチマークで、画像-タブラルタスクとテキスト-タブラルタスクを等しく分割する。
テキストと画像のモダリティにまたがって、ターゲット認識表現のチューニングによる利得が一般化されることを示す。
- 参考スコア(独自算出の注目度): 52.47434184153733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular Foundation Models have recently established the state of the art in supervised tabular learning, by leveraging pretraining to learn generalizable representations of numerical and categorical structured data. However, they lack native support for unstructured modalities such as text and image, and rely on frozen, pretrained embeddings to process them. On established Multimodal Tabular Learning benchmarks, we show that tuning the embeddings to the task improves performance. Existing benchmarks, however, often focus on the mere co-occurrence of modalities; this leads to high variance across datasets and masks the benefits of task-specific tuning. To address this gap, we introduce MulTaBench, a benchmark of 40 datasets, split equally between image-tabular and text-tabular tasks. We focus on predictive tasks where the modalities provide complementary predictive signal, and where generic embeddings lose critical information, necessitating Target-Aware Representations that are aligned with the task. Our experimental results demonstrate that the gains from target-aware representation tuning generalize across both text and image modalities, several tabular learners, encoder scales, and embedding dimensions. MulTaBench constitutes the largest image-tabular benchmarking effort to date, spanning high-impact domains such as healthcare and e-commerce. It is designed to enable the research of novel architectures which incorporate joint modeling and target-aware representations, paving the way for the development of novel Multimodal Tabular Foundation Models.
- Abstract(参考訳): タブラル基礎モデル(Tabular Foundation Models)は、教師付き表形式学習における最先端の手法を確立し、事前学習を活用して、数値および分類的構造化データの一般化可能な表現を学習した。
しかし、それらはテキストや画像のような非構造化のモダリティをネイティブにサポートしておらず、それらを処理するには凍結した事前訓練された埋め込みに依存している。
確立されたマルチモーダルタブラルラーニングベンチマークでは,タスクへの埋め込みの調整により性能が向上することを示す。
しかし、既存のベンチマークは、単にモダリティの共起にフォーカスすることが多く、これはデータセット間のばらつきが高く、タスク固有のチューニングの利点を隠蔽する。
このギャップに対処するために、40のデータセットのベンチマークであるMulTaBenchを紹介します。
我々は、モーダル性が補完的な予測信号を提供する予測タスクに焦点をあて、汎用的な埋め込みが重要な情報を失う場合、タスクと整合したターゲット・アウェア表現を必要とする。
実験結果から,テキストと画像のモダリティ,表層学習者,エンコーダスケール,埋め込み次元の両面において,目標認識型表現調律の利得が一般化されることが示されている。
MulTaBenchは、これまでで最大のイメージタブラルベンチマークの取り組みであり、ヘルスケアやeコマースといった、インパクトの高い領域にまたがっている。
共同モデリングとターゲット認識表現を取り入れた新しいアーキテクチャの研究を可能にし、新しいマルチモーダル・タブラル・ファンデーション・モデルを開発するための道を開いた。
関連論文リスト
- TabSTAR: A Tabular Foundation Model for Tabular Data with Text Fields [12.860878027211522]
Tabular Foundation Modelsは、現実世界の知識を活用し、多様なデータセットをまたいで一般化することができる。
セマンティックなターゲット認識表現を備えたタブラル基礎モデルであるTabSTARを紹介する。
論文 参考訳(メタデータ) (2025-05-23T17:34:28Z) - Leveraging Foundation Models for Multimodal Graph-Based Action Recognition [2.066890710233268]
動的視覚符号化のためのビデオMAEとコンテキストテキスト埋め込みのためのBERTを統合したグラフベースのフレームワークを提案する。
提案手法は,多様なベンチマークデータセット上で,最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-21T07:15:14Z) - Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning [12.377363857246602]
短文分類のためのMI-DELIGHTという新しいモデルを提案する。
まず、スパーシリティの問題を軽減するために、マルチソース情報探索を行う。
次に,短いテキストの表現を学習するために,グラフ学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-01-16T00:26:15Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。