論文の概要: Training Transitive and Commutative Multimodal Transformers with LoReTTa
- arxiv url: http://arxiv.org/abs/2305.14243v1
- Date: Tue, 23 May 2023 16:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:24:07.082648
- Title: Training Transitive and Commutative Multimodal Transformers with LoReTTa
- Title(参考訳): LoReTTaを用いた過渡・多モード変圧器の訓練
- Authors: Manuel Tran, Amal Lahiani, Yashin Dicente Cid, Fabian J. Theis,
Tingying Peng, Eldad Klaiman
- Abstract要約: 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。
我々の自己監督型フレームワークは、因果マスクモデリングと規則の可換性と推移性を組み合わせて、異なるモダリティの内および間を移行する。
LoReTTaで事前訓練された変換器は、未確認対(A, C)と三重項(A, B, C)を含む任意のモダリティ結合を推論時に処理可能であることを示す。
- 参考スコア(独自算出の注目度): 1.5099465160569119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting a multimodal dataset with two paired modalities A and B or B and C
is difficult in practice. Obtaining a dataset with three aligned modalities A,
B, and C is even more challenging. For example, some public medical datasets
have only genetic sequences and microscopic images for one patient, and only
genetic sequences and radiological images for another - but no dataset includes
both microscopic and radiological images for the same patient. This makes it
difficult to integrate and combine all modalities into a large pre-trained
neural network. We introduce LoReTTa (Linking mOdalities with a tRansitive and
commutativE pre-Training sTrAtegy) to address this understudied problem. Our
self-supervised framework combines causal masked modeling with the rules of
commutativity and transitivity to transition within and between different
modalities. Thus, it can model the relation A -> C with A -> B -> C. Given a
dataset containing only the disjoint combinations (A, B) and (B, C), we show
that a transformer pre-trained with LoReTTa can handle any modality combination
at inference time, including the never-seen pair (A, C) and the triplet (A, B,
C). We evaluate our approach on a multimodal dataset derived from MNIST
containing speech, vision, and language, as well as a real-world medical
dataset containing mRNA, miRNA, and RPPA samples from TCGA. Compared to
traditional pre-training methods, we observe up to a 100-point reduction in
perplexity for autoregressive generation tasks and up to a 15% improvement in
classification accuracy for previously unseen modality pairs during the
pre-training phase.
- Abstract(参考訳): 2組のモダリティa,b,b,cのマルチモーダルデータセットの収集は,実際には困難である。
A、B、Cの3つのアライメントを持つデータセットを取得することは、さらに難しい。
例えば、一部の公衆医療データセットは、ある患者のための遺伝子配列と顕微鏡画像のみを持ち、別の患者のための遺伝配列と放射線画像のみを持っている。
これにより、すべてのモダリティを大規模なトレーニング済みニューラルネットワークに統合し、結合することが困難になる。
本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。
我々の自己監督型フレームワークは、因果マスクモデルと可換性と推移性の規則を組み合わせて、異なるモダリティの内および間を移行する。
したがって、A -> C と A -> B -> C の関係をモデル化することができる。 解離結合(A, B) と (B, C) のみを含むデータセットが与えられた場合、LoReTTa で事前訓練された変換器は、予期せぬペア(A, C) と三重項(A, B, C)を含む任意のモダリティ結合を推論時に処理できることを示す。
我々は,音声,視覚,言語を含むMNISTから派生したマルチモーダルデータセットと,TCGAからmRNA,miRNA,RPPAのサンプルを含む実世界の医療データセットについて検討した。
従来のプレトレーニング法と比較して,自己回帰型生成タスクでは最大100ポイントのパープレキシティが低下し,プレトレーニングフェーズではそれまで認識されていなかったモダリティペアの分類精度が最大15%向上した。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文 参考訳(メタデータ) (2024-04-18T09:04:15Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。