Fugu-MT 論文翻訳(概要): Training Transitive and Commutative Multimodal Transformers with LoReTTa

論文の概要: Training Transitive and Commutative Multimodal Transformers with LoReTTa

arxiv url: http://arxiv.org/abs/2305.14243v5
Date: Tue, 16 Jan 2024 22:34:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 21:39:47.286608
Title: Training Transitive and Commutative Multimodal Transformers with LoReTTa
Title（参考訳）: LoReTTaを用いた過渡・多モード変圧器の訓練
Authors: Manuel Tran, Yashin Dicente Cid, Amal Lahiani, Fabian J. Theis, Tingying Peng, Eldad Klaiman
Abstract要約: 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。我々の自己監督型フレームワークは, 因果モデリングとマスキングを, 可換性と推移性の規則で統一する。 LoReTTaで事前訓練された変換器は、未確認対 (A, C) と三重項 (A, B, C) を含む任意のモダリティの混合を推論時に処理可能であることを示す。
参考スコア（独自算出の注目度）: 2.5257466288614343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training multimodal foundation models is challenging due to the limited availability of multimodal datasets. While many public datasets pair images with text, few combine images with audio or text with audio. Even rarer are datasets that align all three modalities at once. Critical domains such as healthcare, infrastructure, or transportation are particularly affected by missing modalities. This makes it difficult to integrate all modalities into a large pre-trained neural network that can be used out-of-the-box or fine-tuned for different downstream tasks. We introduce LoReTTa (Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy) to address this understudied problem. Our self-supervised framework unifies causal modeling and masked modeling with the rules of commutativity and transitivity. This allows us to transition within and between modalities. As a result, our pre-trained models are better at exploring the true underlying joint probability distribution. Given a dataset containing only the disjoint combinations (A, B) and (B, C), LoReTTa can model the relation A <-> C with A <-> B <-> C. In particular, we show that a transformer pre-trained with LoReTTa can handle any mixture of modalities at inference time, including the never-seen pair (A, C) and the triplet (A, B, C). We extensively evaluate our approach on a synthetic, medical, and reinforcement learning dataset. Across different domains, our universal multimodal transformer consistently outperforms strong baselines such as GPT, BERT, and CLIP on tasks involving the missing modality tuple.
Abstract（参考訳）: マルチモーダル基礎モデルのトレーニングは、マルチモーダルデータセットの可用性が限られているため、難しい。多くのパブリックデータセットは画像とテキストを組み合わせるが、音声やテキストと音声を組み合わせたものはほとんどない。さらに珍しいのは、3つのモードをすべて同時に調整するデータセットです。医療、インフラ、交通といった重要なドメインは、特に欠落したモダリティによって影響を受ける。これにより、すべてのモダリティをトレーニング済みの大規模なニューラルネットワークに統合することは困難になる。本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。我々の自己監督型フレームワークは,因果モデリングとマスキングを可換性と推移性の規則で統一する。これにより、モダリティ内とモダリティ間の移行が可能になります。その結果, 事前学習したモデルでは, 真の確率分布を探索する能力が向上した。特に、LoReTTaで事前学習したトランスフォーマーが、予期せぬペア(A, B, C)と三重項(A, B, C)を含む任意のモダリティの混合を推論時に処理可能であることを示す。我々は, 総合的, 医療的, 強化的な学習データセットに対する我々のアプローチを広く評価した。異なるドメインにまたがって、我々のユニバーサルマルチモーダルトランスフォーマーは、gpt、bert、クリップといった、欠けているモダリティタプルを含むタスクの強いベースラインを一貫して上回っています。

関連論文リスト

CyIN: Cyclic Informative Latent Space for Bridging Complete and Incomplete Multimodal Learning [35.562458985015944]
本稿では,完全学習と不完全学習のギャップを埋めるために,Cyclic Informative Learning framework(CyIN)を提案する。不完全なマルチモーダル入力による欠落情報を補うために,クロスモーダル巡回変換を提案する。 CyINは1つの統一モデルで完全および不完全マルチモーダル学習を共同最適化することに成功した。
論文参考訳（メタデータ） (2026-02-04T07:05:15Z)
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models [63.032359320629105]
In this present: Unpaired Multimodal, a modality-agnostic training paradigm, a single model then alternately processs from different modalities while sharing parameters across。補助モダリティからの未ペアリングデータを使用することで、画像や音声などの様々な単一目標に対して、ダウンストリーム性能が一貫して向上することを示す。
論文参考訳（メタデータ） (2025-10-09T17:32:23Z)
REMOTE: A Unified Multimodal Relation Extraction Framework with Multilevel Optimal Transport and Mixture-of-Experts [20.43650235783012]
マルチモーダル関係抽出(MRE)は知識グラフとマルチメディアの分野において重要な課題である。本稿では,マルチレベル最適輸送と混合実験を用いた新しいテキスト化マルチモーダル関係抽出フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-05T06:52:03Z)
impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文参考訳（メタデータ） (2025-08-08T10:01:16Z)
ITCFN: Incomplete Triple-Modal Co-Attention Fusion Network for Mild Cognitive Impairment Conversion Prediction [12.893857146169045]
アルツハイマー病(英語: Alzheimer's disease、AD)は、高齢者の神経変性疾患である。軽度認知障害(MCI)の早期予測と時間的介入は、ADに進むリスクを減少させる可能性がある。
論文参考訳（メタデータ） (2025-01-20T05:12:31Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文参考訳（メタデータ） (2024-04-18T09:04:15Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Training on Synthetic Data Beats Real Data in Multimodal Relation Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文参考訳（メタデータ） (2023-12-05T08:11:34Z)
Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文参考訳（メタデータ） (2023-10-11T13:25:03Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (2022-08-16T08:02:30Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。