論文の概要: Training Transitive and Commutative Multimodal Transformers with LoReTTa
- arxiv url: http://arxiv.org/abs/2305.14243v5
- Date: Tue, 16 Jan 2024 22:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:39:47.286608
- Title: Training Transitive and Commutative Multimodal Transformers with LoReTTa
- Title(参考訳): LoReTTaを用いた過渡・多モード変圧器の訓練
- Authors: Manuel Tran, Yashin Dicente Cid, Amal Lahiani, Fabian J. Theis,
Tingying Peng, Eldad Klaiman
- Abstract要約: 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。
我々の自己監督型フレームワークは, 因果モデリングとマスキングを, 可換性と推移性の規則で統一する。
LoReTTaで事前訓練された変換器は、未確認対 (A, C) と三重項 (A, B, C) を含む任意のモダリティの混合を推論時に処理可能であることを示す。
- 参考スコア(独自算出の注目度): 2.5257466288614343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training multimodal foundation models is challenging due to the limited
availability of multimodal datasets. While many public datasets pair images
with text, few combine images with audio or text with audio. Even rarer are
datasets that align all three modalities at once. Critical domains such as
healthcare, infrastructure, or transportation are particularly affected by
missing modalities. This makes it difficult to integrate all modalities into a
large pre-trained neural network that can be used out-of-the-box or fine-tuned
for different downstream tasks. We introduce LoReTTa (Linking mOdalities with a
tRansitive and commutativE pre-Training sTrAtegy) to address this understudied
problem. Our self-supervised framework unifies causal modeling and masked
modeling with the rules of commutativity and transitivity. This allows us to
transition within and between modalities. As a result, our pre-trained models
are better at exploring the true underlying joint probability distribution.
Given a dataset containing only the disjoint combinations (A, B) and (B, C),
LoReTTa can model the relation A <-> C with A <-> B <-> C. In particular, we
show that a transformer pre-trained with LoReTTa can handle any mixture of
modalities at inference time, including the never-seen pair (A, C) and the
triplet (A, B, C). We extensively evaluate our approach on a synthetic,
medical, and reinforcement learning dataset. Across different domains, our
universal multimodal transformer consistently outperforms strong baselines such
as GPT, BERT, and CLIP on tasks involving the missing modality tuple.
- Abstract(参考訳): マルチモーダル基礎モデルのトレーニングは、マルチモーダルデータセットの可用性が限られているため、難しい。
多くのパブリックデータセットは画像とテキストを組み合わせるが、音声やテキストと音声を組み合わせたものはほとんどない。
さらに珍しいのは、3つのモードをすべて同時に調整するデータセットです。
医療、インフラ、交通といった重要なドメインは、特に欠落したモダリティによって影響を受ける。
これにより、すべてのモダリティをトレーニング済みの大規模なニューラルネットワークに統合することは困難になる。
本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。
我々の自己監督型フレームワークは,因果モデリングとマスキングを可換性と推移性の規則で統一する。
これにより、モダリティ内とモダリティ間の移行が可能になります。
その結果, 事前学習したモデルでは, 真の確率分布を探索する能力が向上した。
特に、LoReTTaで事前学習したトランスフォーマーが、予期せぬペア(A, B, C)と三重項(A, B, C)を含む任意のモダリティの混合を推論時に処理可能であることを示す。
我々は, 総合的, 医療的, 強化的な学習データセットに対する我々のアプローチを広く評価した。
異なるドメインにまたがって、我々のユニバーサルマルチモーダルトランスフォーマーは、gpt、bert、クリップといった、欠けているモダリティタプルを含むタスクの強いベースラインを一貫して上回っています。
関連論文リスト
- Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文 参考訳(メタデータ) (2024-04-18T09:04:15Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。