Fugu-MT 論文翻訳(概要): MMOE: Mixture of Multimodal Interaction Experts

論文の概要: MMOE: Mixture of Multimodal Interaction Experts

arxiv url: http://arxiv.org/abs/2311.09580v1
Date: Thu, 16 Nov 2023 05:31:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 16:25:37.510561
Title: MMOE: Mixture of Multimodal Interaction Experts
Title（参考訳）: mmoe:マルチモーダルインタラクションの専門家の混合
Authors: Haofei Yu, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency
Abstract要約: MMOEはマルチモーダルインタラクションの専門家の混在を指す。本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
参考スコア（独自算出の注目度）: 115.20477067767399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal machine learning, which studies the information and interactions across various input modalities, has made significant advancements in understanding the relationship between images and descriptive text. However, this is just a portion of the potential multimodal interactions seen in the real world and does not include new interactions between conflicting utterances and gestures in predicting sarcasm, for example. Notably, the current methods for capturing shared information often do not extend well to these more nuanced interactions, sometimes performing as low as 50% in binary classification. In this paper, we address this problem via a new approach called MMOE, which stands for a mixture of multimodal interaction experts. Our method automatically classifies data points from unlabeled multimodal datasets by their interaction type and employs specialized models for each specific interaction. Based on our experiments, this approach improves performance on these challenging interactions by more than 10%, leading to an overall increase of 2% for tasks like sarcasm prediction. As a result, interaction quantification provides new insights for dataset analysis and yields simple approaches that obtain state-of-the-art performance.
Abstract（参考訳）: 様々な入力モダリティに関する情報とインタラクションを研究するマルチモーダル機械学習は、画像と記述テキストの関係を理解する上で大きな進歩を遂げている。しかし、これは現実世界で見られる潜在的なマルチモーダルな相互作用の一部に過ぎず、例えばサルカズムの予測において、対立する発話とジェスチャーの間の新たな相互作用は含まない。特に、共有情報をキャプチャする現在の手法は、これらのよりニュアンスな相互作用にうまく及ばず、時にはバイナリ分類において50%の低性能を示す。本稿では,マルチモーダルインタラクションの専門家の混在を念頭に,MMOEと呼ばれる新しいアプローチを用いてこの問題に対処する。本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。その結果、インタラクションの定量化はデータセット分析に新たな洞察を与え、最先端のパフォーマンスを得るためのシンプルなアプローチをもたらす。

関連論文リスト

Heterogeneous bimodal attention fusion for speech emotion recognition [14.24203981584309]
本稿では,会話感情認識における多段階多モードインタラクションのためのHBAF(Heterogeneous Bimodal Attention Fusion)という新しいフレームワークを提案する。ユニモーダル表現モジュールは、コンテキストコンテンツを低レベルのオーディオ表現に組み込んで、異種マルチモーダルギャップをブリッジする。マルチモーダル融合モジュールは動的バイモーダルアテンションと動的ゲーティング機構を用いて不正確な相互モーダル関係をフィルタリングする。
論文参考訳（メタデータ） (2025-03-09T02:50:49Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。 MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文参考訳（メタデータ） (2024-03-17T19:12:26Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2023-08-08T18:11:27Z)
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input [27.102030262319197]
共用視覚と言語表現学習のためのtextbfSwitch-BERT を提案し,モダリティミスマッチの問題に対処する。 Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
論文参考訳（メタデータ） (2023-06-25T09:28:40Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)
Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文参考訳（メタデータ） (2022-11-04T17:58:02Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)
M2Lens: Visualizing and Explaining Multimodal Models for Sentiment Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。 M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文参考訳（メタデータ） (2021-07-17T15:54:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。