論文の概要: MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2511.17397v1
- Date: Fri, 21 Nov 2025 16:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.123539
- Title: MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment
- Title(参考訳): MCMoE:不完全なマルチモーダル・アクション・クオリティアセスメントのための専門家の混成によるミス・モダリティの補完
- Authors: Huangbiao Xu, Huanqi Wu, Xiao Ke, Junyi Wu, Rui Xu, Jinglin Xu,
- Abstract要約: 本研究では,一段階学習における一助学習と共同表現学習を統一するMCMoE(Missing Completion Framework with Mixture of Experts)を提案する。
次に、モダリティの専門家を設計し、モダリティの知識を学習し、すべての専門家の知識を動的に混合し、モダリティ間の共同表現を抽出する。
我々のMCMoEは,3つの公開ベンチマークにおいて,完全かつ不完全なマルチモーダル学習を実現する。
- 参考スコア(独自算出の注目度): 25.542507946327333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Action Quality Assessment (AQA) has recently emerged as a promising paradigm. By leveraging complementary information across shared contextual cues, it enhances the discriminative evaluation of subtle intra-class variations in highly similar action sequences. However, partial modalities are frequently unavailable at the inference stage in reality. The absence of any modality often renders existing multimodal models inoperable. Furthermore, it triggers catastrophic performance degradation due to interruptions in cross-modal interactions. To address this issue, we propose a novel Missing Completion Framework with Mixture of Experts (MCMoE) that unifies unimodal and joint representation learning in single-stage training. Specifically, we propose an adaptive gated modality generator that dynamically fuses available information to reconstruct missing modalities. We then design modality experts to learn unimodal knowledge and dynamically mix the knowledge of all experts to extract cross-modal joint representations. With a mixture of experts, missing modalities are further refined and complemented. Finally, in the training phase, we mine the complete multimodal features and unimodal expert knowledge to guide modality generation and generation-based joint representation extraction. Extensive experiments demonstrate that our MCMoE achieves state-of-the-art results in both complete and incomplete multimodal learning on three public AQA benchmarks. Code is available at https://github.com/XuHuangbiao/MCMoE.
- Abstract(参考訳): マルチモーダルアクション品質評価(Multimodal Action Quality Assessment, AQA)は、最近、有望なパラダイムとして登場した。
コンテクスト間の相補的な情報を活用することで、非常に類似したアクションシーケンスにおける微妙なクラス内変動の識別的評価を強化する。
しかし、実際の推論段階では部分的なモダリティは利用できないことが多い。
モダリティの欠如は、しばしば既存のマルチモーダルモデルを操作不能にする。
さらに、クロスモーダル相互作用の中断による破滅的な性能劣化を引き起こす。
この問題に対処するために,一段階学習における一助・共同表現学習を統一するMCMoE(Missing Completion Framework with Mixture of Experts)を提案する。
具体的には、利用可能な情報を動的に融合して欠落したモダリティを再構築する適応ゲートモード生成器を提案する。
次に、モダリティの専門家を設計し、モダリティの知識を学習し、すべての専門家の知識を動的に混合し、モダリティ間の共同表現を抽出する。
専門家の混在により、欠落したモダリティはさらに洗練され、補完される。
最後に、学習段階において、モダリティ生成と生成に基づく共同表現抽出を導くために、完全なマルチモーダル特徴と非モーダル専門家知識を抽出する。
MCMoEは,3つの公開AQAベンチマークにおいて,完全かつ不完全なマルチモーダル学習を実現する。
コードはhttps://github.com/XuHuangbiao/MCMoEで入手できる。
関連論文リスト
- Deep Correlated Prompting for Visual Recognition with Missing Modalities [22.40271366031256]
大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。
しかし、プライバシーの制約やコレクションの難しさのために、この単純な仮定が現実の世界で常に成り立つとは限らない。
そこで本研究では,大規模事前学習型マルチモーダルモデルを用いて,欠落事例を異なる入力タイプとして扱うことで,欠落したモダリティシナリオに対処する学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T05:28:43Z) - Leveraging Retrieval Augment Approach for Multimodal Emotion Recognition Under Missing Modalities [16.77191718894291]
我々は,Multimodal Emotion Recognition(RAMER)の欠如に対する検索機能強化の新たな枠組みを提案する。
我々のフレームワークは、欠落したモダリティMERタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-09-19T02:31:12Z) - Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities [17.723207830420996]
マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。
本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。
実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
論文 参考訳(メタデータ) (2024-07-23T07:29:57Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。