論文の概要: Mixture-of-Modality-Experts with Holistic Token Learning for Fine-Grained Multimodal Visual Analytics in Driver Action Recognition
- arxiv url: http://arxiv.org/abs/2604.05947v1
- Date: Tue, 07 Apr 2026 14:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.886984
- Title: Mixture-of-Modality-Experts with Holistic Token Learning for Fine-Grained Multimodal Visual Analytics in Driver Action Recognition
- Title(参考訳): ドライバ行動認識における多モード視覚分析のためのモダリティの混合とホロスティックトケラーニング
- Authors: Tianyi Liu, Yiming Li, Wenqian Wang, Jiaojiao Wang, Chen Cai, Yi Wang, Kim-Hui Yap,
- Abstract要約: 本稿では,HTL戦略を用いたMixture-of-Modality-Experts(MoME)フレームワークを提案する。
MoMEは、モダリティ固有の専門家間の適応的なコラボレーションを可能にし、専門家間の知識伝達を改善する。
我々は,ドライバの動作認識に関するフレームワークを,代表的マルチモーダル理解タスクとして検証する。
- 参考スコア(独自算出の注目度): 35.2947975691458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust multimodal visual analytics remains challenging when heterogeneous modalities provide complementary but input-dependent evidence for decision-making.Existing multimodal learning methods mainly rely on fixed fusion modules or predefined cross-modal interactions, which are often insufficient to adapt to changing modality reliability and to capture fine-grained action cues. To address this issue, we propose a Mixture-of-Modality-Experts (MoME) framework with a Holistic Token Learning (HTL) strategy. MoME enables adaptive collaboration among modality-specific experts, while HTL improves both intra-expert refinement and inter-expert knowledge transfer through class tokens and spatio-temporal tokens. In this way, our method forms a knowledge-centric multimodal learning framework that improves expert specialization while reducing ambiguity in multimodal fusion.We validate the proposed framework on driver action recognition as a representative multimodal understanding taskThe experimental results on the public benchmark show that the proposed MoME framework and the HTL strategy jointly outperform representative single-modal and multimodal baselines. Additional ablation, validation, and visualization results further verify that the proposed HTL strategy improves subtle multimodal understanding and offers better interpretability.
- Abstract(参考訳): 不均一なモダリティが相補的だが入力に依存した意思決定の証拠を提供する場合、ロバストなマルチモーダル視覚分析は依然として困難であり、既存のマルチモーダル学習手法は、主に固定融合モジュールや予め定義された相互モーダル相互作用に依存しており、しばしばモダリティの信頼性の変化に適応し、きめ細かいアクションキューを捉えるのに不十分である。
この問題に対処するために,HTL(Helistic Token Learning)戦略を用いたMixture-of-Modality-Experts (MoME)フレームワークを提案する。
MoMEは、モダリティの専門家間の適応的なコラボレーションを可能にし、HTLは、クラストークンと時空間トークンによる専門家間の知識伝達を改善する。
このようにして,本手法は,多モード融合におけるあいまいさを低減しつつ,専門家の専門化を向上する知識中心型マルチモーダル学習フレームワークを形成する。我々は,代表的マルチモーダル理解タスクとしてのドライバ動作認識の枠組みを検証し,提案したMoMEフレームワークとHTL戦略が,代表的単一モーダル・マルチモーダルベースラインを共同的に上回ることを示す。
追加のアブレーション、バリデーション、可視化の結果は、提案したHTL戦略が微妙なマルチモーダル理解を改善し、より良い解釈性を提供することを示す。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。
各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。
音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-28T15:38:58Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。