論文の概要: LANISTR: Multimodal Learning from Structured and Unstructured Data
- arxiv url: http://arxiv.org/abs/2305.16556v1
- Date: Fri, 26 May 2023 00:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:38:41.694112
- Title: LANISTR: Multimodal Learning from Structured and Unstructured Data
- Title(参考訳): LANISTR: 構造化データと非構造化データによるマルチモーダル学習
- Authors: Sayna Ebrahimi, Sercan O. Arik, Yihe Dong, Tomas Pfister
- Abstract要約: 我々は,LANguage, Image, STRucturedデータから学習する新しいアテンションベースのフレームワークLANISTRを提案する。
類似性に基づくマルチモーダルマスキング損失を有する新しいマルチモーダル融合モジュールを提案する。
2つのデータセットにおいて、LANISTRは6.47%(AUROC)と17.69%(精度)の絶対的な改善を達成する。
- 参考スコア(独自算出の注目度): 36.099317275308515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large-scale pretraining has shown impressive performance gains for
unstructured data including language, image, audio, and video. Yet, the
scenario most prominent in real-world applications is the existence of
combination of structured (including tabular and time-series) and unstructured
data, and this has so far been understudied. Towards this end, we propose
LANISTR, a novel attention-based framework to learn from LANguage, Image, and
STRuctured data. We introduce a new multimodal fusion module with a
similarity-based multimodal masking loss that enables LANISTR to learn
cross-modal relations from large-scale multimodal data with missing modalities
during training and test time. On two publicly available challenging datasets,
MIMIC-IV and Amazon Product Review, LANISTR achieves absolute improvements of
6.47% (AUROC) and up to 17.69% (accuracy), respectively, compared to the
state-of-the-art multimodal models while showing superior generalization
capabilities.
- Abstract(参考訳): マルチモーダルな大規模事前学習は、言語、画像、音声、ビデオを含む非構造化データのパフォーマンス向上を示している。
しかし、現実のアプリケーションで最も顕著なシナリオは、構造化された(表型と時系列を含む)データと非構造化データの組み合わせの存在である。
この目的に向けて,言語,画像,構造化データから学ぶための新しい注意に基づくフレームワークであるlanistrを提案する。
LANISTRは,学習時間と試験時間にモダリティが欠如している大規模マルチモーダルデータから,クロスモーダル関係を学習することができる。
MIMIC-IVとAmazon Product Reviewの2つの公開データセットでは、LANISTRは、最先端のマルチモーダルモデルと比較して、それぞれ6.47%(AUROC)と17.69%(精度)の絶対的な改善を実現し、優れた一般化能力を示している。
関連論文リスト
- Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Acquiring Linguistic Knowledge from Multimodal Input [10.965306219502303]
子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。
我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
論文 参考訳(メタデータ) (2024-02-27T23:29:10Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-17T19:32:59Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。