論文の概要: I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2505.19190v1
- Date: Sun, 25 May 2025 15:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.965481
- Title: I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts
- Title(参考訳): I2MoE: 解釈可能なマルチモーダルインタラクション-知識の混合
- Authors: Jiayi Xin, Sukwon Yun, Jie Peng, Inyoung Choi, Jenna L. Ballard, Tianlong Chen, Qi Long,
- Abstract要約: I2MoE (Interpretable Multimodal Interaction-aware Mixture of Experts) を提案する。
I2MoEは多様なマルチモーダル相互作用を明示的にモデル化し、局所的およびグローバルなレベルでの解釈を提供する。
I2MoEは様々な融合技術と組み合わせられるほど柔軟で、タスク性能を一貫して改善し、様々な現実世界のシナリオに解釈を提供する。
- 参考スコア(独自算出の注目度): 33.97906750476949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modality fusion is a cornerstone of multimodal learning, enabling information integration from diverse data sources. However, vanilla fusion methods are limited by (1) inability to account for heterogeneous interactions between modalities and (2) lack of interpretability in uncovering the multimodal interactions inherent in the data. To this end, we propose I2MoE (Interpretable Multimodal Interaction-aware Mixture of Experts), an end-to-end MoE framework designed to enhance modality fusion by explicitly modeling diverse multimodal interactions, as well as providing interpretation on a local and global level. First, I2MoE utilizes different interaction experts with weakly supervised interaction losses to learn multimodal interactions in a data-driven way. Second, I2MoE deploys a reweighting model that assigns importance scores for the output of each interaction expert, which offers sample-level and dataset-level interpretation. Extensive evaluation of medical and general multimodal datasets shows that I2MoE is flexible enough to be combined with different fusion techniques, consistently improves task performance, and provides interpretation across various real-world scenarios. Code is available at https://github.com/Raina-Xin/I2MoE.
- Abstract(参考訳): モダリティ融合はマルチモーダル学習の基盤であり、多様なデータソースからの情報統合を可能にする。
しかしながら、バニラ融合法は、(1)モダリティ間の異種相互作用を考慮できないこと、(2)データに固有のマルチモーダル相互作用を明らかにするための解釈性の欠如によって制限されている。
この目的のために我々は,多様多モード相互作用を明示的にモデル化し,局所的およびグローバルなレベルでの解釈を提供することにより,モダリティ融合を強化するために設計されたI2MoE(Interpretable Multimodal Interaction-aware Mixture of Experts)を提案する。
第一に、I2MoEはデータ駆動方式でマルチモーダルインタラクションを学ぶために、弱い教師付きインタラクション損失を持つ異なるインタラクション専門家を利用する。
次に、I2MoEは、各インタラクションエキスパートの出力に重要なスコアを割り当てるリウェイトモデルを展開し、サンプルレベルとデータセットレベルの解釈を提供する。
医用および一般的なマルチモーダルデータセットの広範囲な評価は、I2MoEが様々な融合技術と組み合わせられるほど柔軟であり、タスク性能を一貫して改善し、様々な実世界のシナリオに解釈を提供することを示している。
コードはhttps://github.com/Raina-Xin/I2MoE.comで入手できる。
関連論文リスト
- Multi-level Matching Network for Multimodal Entity Linking [28.069585532270985]
MEL(Multimodal entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及を、マルチモーダルな知識ベース内の対応するエンティティにリンクすることを目的としている。
マルチモーダルエンティティリンク(M3EL)のためのマルチレベルマッチングネットワークを提案する。
M3ELは、3つの異なるモジュールで構成されている: (i) マルチモーダルエンコーダでモーダル固有の表現を抽出するマルチモーダル特徴抽出モジュール、 (ii) マッチング粒度の2レベルを含むモーダル内マッチングネットワークモジュール、 (iii) 双方向戦略、テキスト・ツー・ビジュアルおよびビジュアル・トゥ・テキストマッチングを適用するクロスモーダルマッチングネットワークモジュール。
論文 参考訳(メタデータ) (2024-12-11T10:26:17Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - IMF: Interactive Multimodal Fusion Model for Link Prediction [13.766345726697404]
異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。
提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
論文 参考訳(メタデータ) (2023-03-20T01:20:02Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。