論文の概要: LANISTR: Multimodal Learning from Structured and Unstructured Data
- arxiv url: http://arxiv.org/abs/2305.16556v2
- Date: Wed, 23 Aug 2023 18:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 17:51:18.762267
- Title: LANISTR: Multimodal Learning from Structured and Unstructured Data
- Title(参考訳): LANISTR: 構造化データと非構造化データによるマルチモーダル学習
- Authors: Sayna Ebrahimi, Sercan O. Arik, Yihe Dong, Tomas Pfister
- Abstract要約: LANISTRは、LANguage、Image、STRucturedデータから学ぶための注目ベースのフレームワークである。
2つの実世界のデータステーでは、LANISTRは、それぞれ0.1%と0.01%のラベル付きデータを微調整すると、6.6%(AUROC)と最大14%(精度)の絶対的な改善を示す。
- 参考スコア(独自算出の注目度): 36.85511006476394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large-scale pretraining has shown impressive performance for
unstructured data including language, image, audio, and video. However, a
prevalent real-world scenario involves the combination of structured data types
(tabular, time-series) with unstructured data which has so far been
understudied. To bridge this gap, we propose LANISTR, an attention-based
framework to learn from LANguage, Image, and STRuctured data. The core of
LANISTR's methodology is rooted in \textit{masking-based} training applied
across both unimodal and multimodal levels. In particular, we introduce a new
similarity-based multimodal masking loss that enables it to learn cross-modal
relations from large-scale multimodal data with missing modalities. On two
real-world datastes, MIMIC-IV (healthcare) and Amazon Product Review (retail),
LANISTR demonstrates remarkable absolute improvements of 6.6\% (AUROC) and up
to 14\% (accuracy) when fine-tuned on 0.1\% and 0.01\% of labeled data,
respectively, compared to the state-of-the-art alternatives. Notably, these
improvements are observed even in the presence of considerable missingness
ratios of 35.7\% and 99.8\%, in the respective datasets.
- Abstract(参考訳): マルチモーダルな大規模事前トレーニングは、言語、画像、オーディオ、ビデオを含む非構造化データに対して印象的なパフォーマンスを示している。
しかし、一般的な現実のシナリオは、構造化データ型(タブラリ、時系列)とこれまで検討されてきた非構造化データの組み合わせである。
このギャップを埋めるために,LANguage, Image, STRucturedデータから学習する注目ベースのフレームワークLANISTRを提案する。
lanistr の方法論の中核は、ユニモーダルレベルとマルチモーダルレベルの両方に適用される \textit{masking-based} トレーニングにある。
特に,新しい類似性に基づくマルチモーダルマスキングの損失を導入し,モダリティを欠いた大規模マルチモーダルデータからクロスモーダル関係を学習する。
MIMIC-IV (Healthcare) とAmazon Product Review (Retail) の2つの実世界のデータステーにおいて、LANISTRは、最先端の代替品と比較して、それぞれ0.1\%と0.01\%で微調整されたときに、6.6\% (AUROC) と14\% (精度) の絶対的な改善を示す。
これらの改善は、各データセットにおいて35.7\%と99.8\%というかなりの欠落率が存在する場合でも観察される。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Advancing Multi-Modal Sensing Through Expandable Modality Alignment [14.0873117319398]
ニューラルネットワークアーキテクチャ、データ準備と処理、トレーニング戦略を含むBabelフレームワークを紹介します。
Babelは、スケーラブルで事前訓練されたマルチモーダルセンシングニューラルネットワークとして機能し、現在6つのセンセーショナルモダリティを整列している。
バベルは、利用可能な複数のモダリティ(最大22%の精度向上)を効果的に融合するだけでなく、個々のモダリティのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2024-07-25T05:10:48Z) - TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data [6.414759311130015]
不完全なデータに頑健なマルチモーダル表現を学習するための新しいフレームワークであるTIPを提案する。
具体的には、TIPは、データ不足に対処するためのマスク付き再構築タスクを含む、自己教師付き学習(SSL)戦略を調査する。
TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSLイメージ/マルチモーダルアルゴリズムより優れている。
論文 参考訳(メタデータ) (2024-07-10T12:16:15Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-17T19:32:59Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。