論文の概要: Multi-modal Collaborative Optimization and Expansion Network for Event-assisted Single-eye Expression Recognition
- arxiv url: http://arxiv.org/abs/2505.12007v3
- Date: Thu, 22 May 2025 03:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 12:25:14.991286
- Title: Multi-modal Collaborative Optimization and Expansion Network for Event-assisted Single-eye Expression Recognition
- Title(参考訳): イベント支援単眼表情認識のためのマルチモーダル協調最適化と拡張ネットワーク
- Authors: Runduo Han, Xiuping Liu, Shangxuan Yi, Yi Zhang, Hongchen Tan,
- Abstract要約: 我々は,MCO-Eネット(Multi-modal Collaborative Optimization and Expansion Network)を提案する。
MCO-Eネットは、MCO-Mamba(MCO-Mamba)とHeterogeneous Collaborative and Expansion Mixture-of-Experts(HCE-MoE)の2つの革新的な設計を導入した。
- 参考スコア(独自算出の注目度): 9.208899963076917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we proposed a Multi-modal Collaborative Optimization and Expansion Network (MCO-E Net), to use event modalities to resist challenges such as low light, high exposure, and high dynamic range in single-eye expression recognition tasks. The MCO-E Net introduces two innovative designs: Multi-modal Collaborative Optimization Mamba (MCO-Mamba) and Heterogeneous Collaborative and Expansion Mixture-of-Experts (HCE-MoE). MCO-Mamba, building upon Mamba, leverages dual-modal information to jointly optimize the model, facilitating collaborative interaction and fusion of modal semantics. This approach encourages the model to balance the learning of both modalities and harness their respective strengths. HCE-MoE, on the other hand, employs a dynamic routing mechanism to distribute structurally varied experts (deep, attention, and focal), fostering collaborative learning of complementary semantics. This heterogeneous architecture systematically integrates diverse feature extraction paradigms to comprehensively capture expression semantics. Extensive experiments demonstrate that our proposed network achieves competitive performance in the task of single-eye expression recognition, especially under poor lighting conditions.
- Abstract(参考訳): 本稿では,マルチモーダル協調最適化・拡張ネットワーク (MCO-E Net) を提案する。
MCO-Eネットは、MCO-Mamba (MCO-Mamba) と Heterogeneous Collaborative and Expansion Mixture-of-Experts (HCE-MoE) の2つの革新的な設計を導入した。
Mamba上に構築されたMCO-Mambaは、デュアルモーダル情報を利用してモデルを協調的に最適化し、協調的な相互作用とモーダルセマンティクスの融合を促進する。
このアプローチはモデルに対して、両方のモダリティの学習のバランスを取ることを奨励し、それぞれの強みを活用する。
一方、HCE-MoEは動的ルーティング機構を用いて、構造的に異なる専門家(ディープ、アテンション、フォーカス)を分散し、相補的意味論の協調学習を促進する。
この異種アーキテクチャは、様々な特徴抽出パラダイムを体系的に統合し、表現意味論を包括的に捉える。
広汎な実験により,提案するネットワークは,特に照明条件の悪い場合において,単眼表現認識のタスクにおいて,競争性能が向上することを示した。
関連論文リスト
- Multi-Task Semantic Communications via Large Models [42.42961176008125]
適応型モデル圧縮戦略とフェデレートされた分割微調整アプローチを含む,LAMベースのマルチタスクSemComアーキテクチャを提案する。
近年のローカルおよびグローバルな知識ベースを合成するために,検索拡張生成方式が実装されている。
論文 参考訳(メタデータ) (2025-03-28T00:57:34Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。