論文の概要: Training Transitive and Commutative Multimodal Transformers with LoReTTa
- arxiv url: http://arxiv.org/abs/2305.14243v4
- Date: Sun, 24 Sep 2023 13:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:43:10.767110
- Title: Training Transitive and Commutative Multimodal Transformers with LoReTTa
- Title(参考訳): LoReTTaを用いた過渡・多モード変圧器の訓練
- Authors: Manuel Tran, Amal Lahiani, Yashin Dicente Cid, Fabian J. Theis,
Tingying Peng, Eldad Klaiman
- Abstract要約: 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。
我々の自己教師型フレームワークは、可換性と推移性の規則で2つの主要な言語学習パラダイムを統一する。
LoReTTaで事前学習した変換器は、未確認対 (A, C) と三重項 (A, B, C) を含む任意のモダリティの混合を推論時に処理可能であることを示す。
- 参考スコア(独自算出の注目度): 2.5257466288614343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training multimodal foundation models is challenging due to the limited
availability of multimodal datasets. While many public datasets pair images
with text, few combine images with audio or text with audio. Even rarer are
datasets that align all three modalities at once. Critical domains such as
healthcare, infrastructure, or transportation are particularly affected by
missing modalities. This makes it difficult to integrate all modalities into a
large pre-trained neural network that can be used out-of-the-box or fine-tuned
for different downstream tasks. We introduce LoReTTa (Linking mOdalities with a
tRansitive and commutativE pre-Training sTrAtegy) to address this understudied
problem. Our self-supervised framework unifies two major language learning
paradigms with the rules of commutativity and transitivity. This allows us to
transition within and between modalities. As a result, our pre-trained models
are better at exploring the true underlying joint probability distribution. For
example, LoReTTa can model the relation A -> C with A -> B -> C. Given a
dataset containing only the disjoint combinations (A, B) and (B, C), we show
that a transformer pre-trained with LoReTTa can handle any mixture of
modalities at inference time, including the never-seen pair (A, C) and the
triplet (A, B, C). We extensively evaluate our approach on a synthetic,
medical, and reinforcement learning dataset. Across different domains, our
universal multimodal transformer consistently outperforms strong baselines such
as GPT, BERT, and CLIP on tasks involving the missing modality combinations.
- Abstract(参考訳): マルチモーダル基礎モデルのトレーニングは、マルチモーダルデータセットの可用性が限られているため、難しい。
多くのパブリックデータセットは画像とテキストを組み合わせるが、音声やテキストと音声を組み合わせたものはほとんどない。
さらに珍しいのは、3つのモードをすべて同時に調整するデータセットです。
医療、インフラ、交通といった重要なドメインは、特に欠落したモダリティによって影響を受ける。
これにより、すべてのモダリティをトレーニング済みの大規模なニューラルネットワークに統合することは困難になる。
本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。
我々の自己教師付きフレームワークは、2つの主要な言語学習パラダイムを可換性と推移性のルールで統一する。
これにより、モダリティ内とモダリティ間の移行が可能になります。
その結果, 事前学習したモデルでは, 真の確率分布を探索する能力が向上した。
例えば、LoReTTa は A -> C と A -> B -> C の関係をモデル化することができる。 解離結合 (A, B) と (B, C) の組み合わせのみを含むデータセットが与えられた場合、LoReTTa で事前訓練された変換器は、予期しないペア (A, C) と三重項 (A, B, C) を含む任意のモダリティの混合を扱うことができることを示す。
我々は, 総合的, 医療的, 強化的な学習データセットに対する我々のアプローチを広く評価した。
GPT,BERT,CLIPなど,欠落したモダリティの組み合わせを含むタスクにおいて,各領域の共通マルチモーダルトランスフォーマーは一貫して,強いベースラインを上回ります。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文 参考訳(メタデータ) (2024-04-18T09:04:15Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。