論文の概要: LANISTR: Multimodal Learning from Structured and Unstructured Data
- arxiv url: http://arxiv.org/abs/2305.16556v1
- Date: Fri, 26 May 2023 00:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:38:41.694112
- Title: LANISTR: Multimodal Learning from Structured and Unstructured Data
- Title(参考訳): LANISTR: 構造化データと非構造化データによるマルチモーダル学習
- Authors: Sayna Ebrahimi, Sercan O. Arik, Yihe Dong, Tomas Pfister
- Abstract要約: 我々は,LANguage, Image, STRucturedデータから学習する新しいアテンションベースのフレームワークLANISTRを提案する。
類似性に基づくマルチモーダルマスキング損失を有する新しいマルチモーダル融合モジュールを提案する。
2つのデータセットにおいて、LANISTRは6.47%(AUROC)と17.69%(精度)の絶対的な改善を達成する。
- 参考スコア(独自算出の注目度): 36.099317275308515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large-scale pretraining has shown impressive performance gains for
unstructured data including language, image, audio, and video. Yet, the
scenario most prominent in real-world applications is the existence of
combination of structured (including tabular and time-series) and unstructured
data, and this has so far been understudied. Towards this end, we propose
LANISTR, a novel attention-based framework to learn from LANguage, Image, and
STRuctured data. We introduce a new multimodal fusion module with a
similarity-based multimodal masking loss that enables LANISTR to learn
cross-modal relations from large-scale multimodal data with missing modalities
during training and test time. On two publicly available challenging datasets,
MIMIC-IV and Amazon Product Review, LANISTR achieves absolute improvements of
6.47% (AUROC) and up to 17.69% (accuracy), respectively, compared to the
state-of-the-art multimodal models while showing superior generalization
capabilities.
- Abstract(参考訳): マルチモーダルな大規模事前学習は、言語、画像、音声、ビデオを含む非構造化データのパフォーマンス向上を示している。
しかし、現実のアプリケーションで最も顕著なシナリオは、構造化された(表型と時系列を含む)データと非構造化データの組み合わせの存在である。
この目的に向けて,言語,画像,構造化データから学ぶための新しい注意に基づくフレームワークであるlanistrを提案する。
LANISTRは,学習時間と試験時間にモダリティが欠如している大規模マルチモーダルデータから,クロスモーダル関係を学習することができる。
MIMIC-IVとAmazon Product Reviewの2つの公開データセットでは、LANISTRは、最先端のマルチモーダルモデルと比較して、それぞれ6.47%(AUROC)と17.69%(精度)の絶対的な改善を実現し、優れた一般化能力を示している。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Advancing Multi-Modal Sensing Through Expandable Modality Alignment [14.0873117319398]
ニューラルネットワークアーキテクチャ、データ準備と処理、トレーニング戦略を含むBabelフレームワークを紹介します。
Babelは、スケーラブルで事前訓練されたマルチモーダルセンシングニューラルネットワークとして機能し、現在6つのセンセーショナルモダリティを整列している。
バベルは、利用可能な複数のモダリティ(最大22%の精度向上)を効果的に融合するだけでなく、個々のモダリティのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2024-07-25T05:10:48Z) - TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data [6.414759311130015]
不完全なデータに頑健なマルチモーダル表現を学習するための新しいフレームワークであるTIPを提案する。
具体的には、TIPは、データ不足に対処するためのマスク付き再構築タスクを含む、自己教師付き学習(SSL)戦略を調査する。
TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSLイメージ/マルチモーダルアルゴリズムより優れている。
論文 参考訳(メタデータ) (2024-07-10T12:16:15Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-17T19:32:59Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。