論文の概要: DA-Mamba: Dialogue-aware selective state-space model for multimodal engagement estimation
- arxiv url: http://arxiv.org/abs/2509.17711v1
- Date: Mon, 22 Sep 2025 12:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.386525
- Title: DA-Mamba: Dialogue-aware selective state-space model for multimodal engagement estimation
- Title(参考訳): DA-Mamba:多モーダルエンゲージメント推定のための対話対応選択状態空間モデル
- Authors: Shenwei Kang, Xin Zhang, Wen Liu, Bin Li, Yujie Liu, Bo Gao,
- Abstract要約: DA-Mambaは、注目度の高い対話エンコーダをMambaベースの選択状態空間処理に置き換える対話対応マルチモーダルアーキテクチャである。
DA-Mambaは, コンコーダンス相関係数(CCC)において, 先行技術(SOTA)法を超越していることを示す。
これにより、より長いシーケンスの処理が可能になり、リソース制約のある複数パーティの会話設定でのリアルタイムデプロイメントが容易になる。
- 参考スコア(独自算出の注目度): 15.106664911098882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human engagement estimation in conversational scenarios is essential for applications such as adaptive tutoring, remote healthcare assessment, and socially aware human--computer interaction. Engagement is a dynamic, multimodal signal conveyed by facial expressions, speech, gestures, and behavioral cues over time. In this work we introduce DA-Mamba, a dialogue-aware multimodal architecture that replaces attention-heavy dialogue encoders with Mamba-based selective state-space processing to achieve linear time and memory complexity while retaining expressive cross-modal reasoning. We design a Mamba dialogue-aware selective state-space model composed of three core modules: a Dialogue-Aware Encoder, and two Mamba-based fusion mechanisms: Modality-Group Fusion and Partner-Group Fusion, these modules achieve expressive dialogue understanding. Extensive experiments on three standard benchmarks (NoXi, NoXi-Add, and MPIIGI) show that DA-Mamba surpasses prior state-of-the-art (SOTA) methods in concordance correlation coefficient (CCC), while reducing training time and peak memory; these gains enable processing much longer sequences and facilitate real-time deployment in resource-constrained, multi-party conversational settings. The source code will be available at: https://github.com/kksssssss-ssda/MMEA.
- Abstract(参考訳): 会話シナリオにおける人間のエンゲージメント推定は、適応型チュータリング、リモートヘルスケアアセスメント、社会的に認識された人間とコンピュータの相互作用といった応用に不可欠である。
エンゲージメント(Engagement)は、表情、スピーチ、ジェスチャー、行動的手がかりによって時間とともに伝達される動的でマルチモーダルな信号である。
本研究では, DA-Mambaについて述べる。DA-Mambaは, 注目度の高い対話エンコーダをMambaベースの選択的状態空間処理に置き換え, 表現力のあるクロスモーダル推論を維持しつつ, 線形時間とメモリの複雑さを実現する対話型マルチモーダルアーキテクチャである。
我々は,3つのコアモジュール(対話認識エンコーダ)と,2つのMambaベースの融合機構であるModality-Group FusionとPartner-Group Fusion)からなる,Mambaの対話対応選択状態空間モデルの設計を行った。
3つの標準ベンチマーク(NoXi、NoXi-Add、MPIIGI)の広範な実験により、DA-Mambaは、トレーニング時間とピークメモリを削減しつつ、コンコータンス相関係数(CCC)における従来の最先端(SOTA)メソッドを超越している。
ソースコードは、https://github.com/kksssssss-ssda/MMEA.comで入手できる。
関連論文リスト
- A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。