Fugu-MT 論文翻訳(概要): TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

論文の概要: TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

arxiv url: http://arxiv.org/abs/2407.07582v1
Date: Wed, 10 Jul 2024 12:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 16:51:55.695193
Title: TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data
Title（参考訳）: TIP:不完全データを用いたマルチモーダル分類のためのタブラル画像事前学習
Authors: Siyi Du, Shaoming Zheng, Yinsong Wang, Wenjia Bai, Declan P. O'Regan, Chen Qin,
Abstract要約: 不完全なデータに頑健なマルチモーダル表現を学習するための新しいフレームワークであるTIPを提案する。具体的には、TIPは、データ不足に対処するためのマスク付き再構築タスクを含む、自己教師付き学習(SSL)戦略を調査する。 TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSLイメージ/マルチモーダルアルゴリズムより優れている。
参考スコア（独自算出の注目度）: 6.414759311130015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Images and structured tables are essential parts of real-world databases. Though tabular-image representation learning is promising to create new insights, it remains a challenging task, as tabular data is typically heterogeneous and incomplete, presenting significant modality disparities with images. Earlier works have mainly focused on simple modality fusion strategies in complete data scenarios, without considering the missing data issue, and thus are limited in practice. In this paper, we propose TIP, a novel tabular-image pre-training framework for learning multimodal representations robust to incomplete tabular data. Specifically, TIP investigates a novel self-supervised learning (SSL) strategy, including a masked tabular reconstruction task for tackling data missingness, and image-tabular matching and contrastive learning objectives to capture multimodal information. Moreover, TIP proposes a versatile tabular encoder tailored for incomplete, heterogeneous tabular data and a multimodal interaction module for inter-modality representation learning. Experiments are performed on downstream multimodal classification tasks using both natural and medical image datasets. The results show that TIP outperforms state-of-the-art supervised/SSL image/multimodal algorithms in both complete and incomplete data scenarios. Our code is available at https://github.com/siyi-wind/TIP.
Abstract（参考訳）: 画像と構造化テーブルは、現実世界のデータベースの重要な部分である。表象表現学習は新たな洞察を生み出すことを約束しているが、表象データは典型的に異質で不完全であり、画像とはかなりのモダリティの相違を示すため、依然として難しい課題である。これまでの研究は主に、完全なデータシナリオにおける単純なモダリティ融合戦略に重点を置いていた。本稿では,不完全な表データに頑健なマルチモーダル表現を学習するための新しい表像事前学習フレームワークであるTIPを提案する。具体的には、TIPは、データ不足に対処するためのマスク付き表層再構築タスク、マルチモーダル情報を取得するための画像とタブラリマッチングとコントラスト学習目的を含む、新しい自己教師型学習(SSL)戦略を調査する。さらに,不完全で不均一な表層データに適した多機能な表層エンコーダと,モード間表現学習のための多モード対話モジュールを提案する。自然画像と医用画像の両方を用いて、下流のマルチモーダル分類タスクで実験を行う。その結果、TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSL画像/マルチモーダルアルゴリズムより優れていることがわかった。私たちのコードはhttps://github.com/siyi-wind/TIPで利用可能です。

関連論文リスト

TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning [3.559225731091162]
タブラル・イメージ・マルチモーダル・ラーニングは,特に医学的応用において,様々な課題に対して大きな期待を抱いている。最近導入されたTabPFNをベースにした新しいマルチモーダルフレームワークであるTabPFN-Integrated Multimodal Engine (TIME)を提案する。 TIMEは、自然に欠落したデータに対して回復力のある堅牢で強力な埋め込みを生成し、事前訓練された視覚バックボーンの画像特徴と組み合わせる。
論文参考訳（メタデータ） (2025-06-01T03:29:30Z)
STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification [6.130981749820211]
マルチモーダル画像タブラル学習は注目されているが,ラベル付きデータに制限があるため,課題に直面している。ラベル付きデータとラベルなしデータを組み合わせたセミ教師付き学習(SemiSL)は、有望なソリューションを提供する。タスク関連情報を包括的に探索することで、モダリティ情報ギャップに対処する新しいセミSLフレームワークであるSTiLを提案する。
論文参考訳（メタデータ） (2025-03-08T16:51:45Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
Contrasting with Symile: Simple Model-Agnostic Representation Learning for Unlimited Modalities [21.745266161874195]
CLIPのような対照的な学習方法は、自然にペア化されたデータ、例えば画像とその対応するテキストキャプションを利用して、下流のタスクに効率的に転送する一般的な表現を学習する。これらの結果から,CLIPの相互適用はモダリティ間の結合情報を捉えるのに失敗し,学習した表現の質が制限されることが示唆された。モーダル間の高次情報を取得する単純なコントラスト学習手法であるSymileを提案する。
論文参考訳（メタデータ） (2024-11-01T21:49:25Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data [7.49320945341034]
単調エンコーダを学習するための自己指導型コントラスト学習フレームワークを提案する。我々のソリューションは、2つの主要なコントラスト学習戦略であるSimCLRとSCARFを組み合わせています。 DVMカー広告データセットを用いて,自然画像へのアプローチの一般化可能性を示す。
論文参考訳（メタデータ） (2023-03-24T15:44:42Z)
Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。 1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文参考訳（メタデータ） (2023-01-26T15:25:43Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文参考訳（メタデータ） (2022-12-02T11:40:40Z)
PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文参考訳（メタデータ） (2022-09-15T08:58:42Z)
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文参考訳（メタデータ） (2021-10-08T20:11:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。