論文の概要: Sparse multimodal fusion with modal channel attention
- arxiv url: http://arxiv.org/abs/2403.20280v1
- Date: Fri, 29 Mar 2024 16:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:05:12.204172
- Title: Sparse multimodal fusion with modal channel attention
- Title(参考訳): モーダルチャネルアテンションを有するスパースマルチモーダルフュージョン
- Authors: Josiah Bjorgaard,
- Abstract要約: モーダルチャネルアテンション(MCA)と呼ばれるマルチヘッドアテンション機構にモーダル不完全チャネルを組み込んだマスク型マルチモーダルトランスフォーマーモデルの拡張を提案する。
その結果、モーダルな間隔がなくても、提案したMCA機構は、生成された埋め込み空間、リコールメトリクス、下流タスクにおけるその後のパフォーマンスを改善していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of masked multimodal transformer architectures to learn a robust embedding space when modality samples are sparsely aligned is studied by measuring the quality of generated embedding spaces as a function of modal sparsity. An extension to the masked multimodal transformer model is proposed which incorporates modal-incomplete channels in the multihead attention mechanism called modal channel attention (MCA). Two datasets with 4 modalities are used, CMU-MOSEI for multimodal sentiment recognition and TCGA for multiomics. Models are shown to learn uniform and aligned embedding spaces with only two out of four modalities in most samples. It was found that, even with no modal sparsity, the proposed MCA mechanism improves the quality of generated embedding spaces, recall metrics, and subsequent performance on downstream tasks.
- Abstract(参考訳): マスク付きマルチモーダル変圧器アーキテクチャは、モダリティサンプルが疎結合であるときにロバストな埋め込み空間を学習する能力について、モーダル空間の関数として生成された埋め込み空間の品質を測定することによって研究する。
モーダルチャネルアテンション(MCA)と呼ばれるマルチヘッドアテンション機構にモーダル不完全チャネルを組み込んだマスク型マルチモーダルトランスフォーマーモデルの拡張を提案する。
4つのモダリティを持つ2つのデータセット、マルチモーダル感情認識のためのCMU-MOSEI、マルチオミクスのためのTCGAが使用される。
モデルは、ほとんどのサンプルにおいて4つのモードのうち2つしか持たない均一で整列した埋め込み空間を学習することが示されている。
その結果、モーダルな間隔がなくても、提案したMCA機構は、生成された埋め込み空間、リコールメトリクス、下流タスクにおけるその後のパフォーマンスを改善していることがわかった。
関連論文リスト
- MTPareto: A MultiModal Targeted Pareto Framework for Fake News Detection [34.09249215878179]
インターネットマルチメディア情報の信頼性を維持するためには,マルチモーダルフェイクニュース検出が不可欠である。
この問題に対処するため,マルチモーダル融合を最適化する MTPareto フレームワークを提案する。
FakeSVおよびFVCデータセットの実験結果は、提案フレームワークがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-12T10:14:29Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Multimodal Informative ViT: Information Aggregation and Distribution for
Hyperspectral and LiDAR Classification [25.254816993934746]
Multimodal Informative Vit (MIVit) は革新的な情報集約配信機構を備えたシステムである。
MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を減少させる。
以上の結果から,MIVitの双方向凝集分配機構は極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-01-06T09:53:33Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。