論文の概要: A Modular End-to-End Multimodal Learning Method for Structured and
Unstructured Data
- arxiv url: http://arxiv.org/abs/2403.04866v1
- Date: Thu, 7 Mar 2024 19:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:44:26.169149
- Title: A Modular End-to-End Multimodal Learning Method for Structured and
Unstructured Data
- Title(参考訳): 構造化・非構造化データに対するモジュール型エンドツーエンドマルチモーダル学習法
- Authors: Marco D Alessandro, Enrique Calabr\'es, Mikel Elkano
- Abstract要約: 本研究では、構造化データと非構造化データの両方を扱うために、MAGNUMと呼ばれるモジュラー・エンドツーエンドのマルチモーダル学習手法を提案する。
MAGNUMは、利用可能なすべてのモダリティから情報を抽出し、圧縮し、ヒューズするために、任意の特別なユニモーダルモジュールを使用するのに十分柔軟である。
- 参考スコア(独自算出の注目度): 0.8707890581759181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning is a rapidly growing research field that has
revolutionized multitasking and generative modeling in AI. While much of the
research has focused on dealing with unstructured data (e.g., language, images,
audio, or video), structured data (e.g., tabular data, time series, or signals)
has received less attention. However, many industry-relevant use cases involve
or can be benefited from both types of data. In this work, we propose a
modular, end-to-end multimodal learning method called MAGNUM, which can
natively handle both structured and unstructured data. MAGNUM is flexible
enough to employ any specialized unimodal module to extract, compress, and fuse
information from all available modalities.
- Abstract(参考訳): マルチモーダル学習は、AIにおけるマルチタスクと生成モデリングに革命をもたらした、急速に成長する研究分野である。
研究の多くは構造化されていないデータ(言語、画像、音声、ビデオなど)を扱うことに重点を置いているが、構造化されたデータ(表データ、時系列、信号など)は、あまり注目されていない。
しかし、業界関連のユースケースの多くは、両方のタイプのデータから恩恵を受けることができる。
本稿では,構造化データと非構造化データの両方をネイティブに処理可能なモジュール型,エンドツーエンドのマルチモーダル学習手法であるmagnumを提案する。
マグナムは柔軟性があり、利用可能な全てのモダリティから情報を抽出、圧縮、融合するために、任意の特別なユニモーダルモジュールを使用する。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Modular Blended Attention Network for Video Question Answering [1.131316248570352]
本稿では,再利用可能で構成可能なニューラルユニットを用いた問題解決手法を提案する。
一般的に使用されている3つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-11-02T14:22:17Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - S-Omninet: Structured Data Enhanced Universal Multimodal Learning
Architecture [19.927662512903915]
近年,マルチモーダルマルチタスク学習への関心が高まっている。
視覚や言語データなど,特定の種類のマルチモーダルデータについて学習するために,多くの手法が提案されている。
複数のモダリティやタスクを同時に処理できるアーキテクチャであるOmninetを拡張して改善する。
論文 参考訳(メタデータ) (2023-07-01T05:02:46Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。