論文の概要: Learning Multimodal Data Augmentation in Feature Space
- arxiv url: http://arxiv.org/abs/2212.14453v1
- Date: Thu, 29 Dec 2022 20:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:11:51.295996
- Title: Learning Multimodal Data Augmentation in Feature Space
- Title(参考訳): 特徴空間におけるマルチモーダルデータ拡張の学習
- Authors: Zichang Liu, Zhiqiang Tang, Xingjian Shi, Aston Zhang, Mu Li,
Anshumali Shrivastava, Andrew Gordon Wilson
- Abstract要約: LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 65.54623807628536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to jointly learn from multiple modalities, such as text, audio,
and visual data, is a defining feature of intelligent systems. While there have
been promising advances in designing neural networks to harness multimodal
data, the enormous success of data augmentation currently remains limited to
single-modality tasks like image classification. Indeed, it is particularly
difficult to augment each modality while preserving the overall semantic
structure of the data; for example, a caption may no longer be a good
description of an image after standard augmentations have been applied, such as
translation. Moreover, it is challenging to specify reasonable transformations
that are not tailored to a particular modality. In this paper, we introduce
LeMDA, Learning Multimodal Data Augmentation, an easy-to-use method that
automatically learns to jointly augment multimodal data in feature space, with
no constraints on the identities of the modalities or the relationship between
modalities. We show that LeMDA can (1) profoundly improve the performance of
multimodal deep learning architectures, (2) apply to combinations of modalities
that have not been previously considered, and (3) achieve state-of-the-art
results on a wide range of applications comprised of image, text, and tabular
data.
- Abstract(参考訳): テキスト、オーディオ、視覚データなどの複数のモードから共同で学習する能力は、インテリジェントシステムの決定的な特徴である。
マルチモーダルデータを活用するニューラルネットワークの設計には有望な進歩があるが、データ拡張の膨大な成功は、画像分類のような単一モーダルタスクに限られている。
実際、データの全体的な意味構造を保ちながら、各モダリティを増大させることは特に困難である。例えば、キャプションは、翻訳のような標準的な拡張が適用された後、画像の適切な記述にならないかもしれない。
さらに、特定のモダリティに適合しない合理的な変換を指定することは困難である。
本稿では,特徴空間におけるマルチモーダルデータの共用性を学習し,モダリティの同一性やモダリティ間の関係に制約を加えることなく,マルチモーダルデータを自動的に拡張する手法であるLearning Multimodal Data Augmentationを紹介する。
我々は,(1)マルチモーダルなディープラーニングアーキテクチャの性能を著しく向上させることができること,(2)これまで検討されていないモダリティの組み合わせに適用可能であること,(3)画像,テキスト,表データからなる幅広いアプリケーションに対して,最先端の成果が得られること,を示す。
関連論文リスト
- Can Text-to-image Model Assist Multi-modal Learning for Visual
Recognition with Visual Modality Missing? [37.73329106465031]
視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。
以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-02-14T09:21:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - S-Omninet: Structured Data Enhanced Universal Multimodal Learning
Architecture [19.927662512903915]
近年,マルチモーダルマルチタスク学習への関心が高まっている。
視覚や言語データなど,特定の種類のマルチモーダルデータについて学習するために,多くの手法が提案されている。
複数のモダリティやタスクを同時に処理できるアーキテクチャであるOmninetを拡張して改善する。
論文 参考訳(メタデータ) (2023-07-01T05:02:46Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - UNIMO: Towards Unified-Modal Understanding and Generation via
Cross-Modal Contrastive Learning [28.89401350391015]
単一モーダルとマルチモーダルの両方の理解と生成タスクに適応できる統一モーダルプリトレーニングアーキテクチャ、すなわちUNIMOを提案します。
非ペア化シングルモーダルデータは非常に豊富であるため、我々のモデルは、より一般化可能な表現を学ぶために、より大規模なデータを利用することができます。
論文 参考訳(メタデータ) (2020-12-31T02:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。