論文の概要: DA-Mamba: Dialogue-aware selective state-space model for multimodal engagement estimation
- arxiv url: http://arxiv.org/abs/2509.17711v1
- Date: Mon, 22 Sep 2025 12:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.386525
- Title: DA-Mamba: Dialogue-aware selective state-space model for multimodal engagement estimation
- Title(参考訳): DA-Mamba:多モーダルエンゲージメント推定のための対話対応選択状態空間モデル
- Authors: Shenwei Kang, Xin Zhang, Wen Liu, Bin Li, Yujie Liu, Bo Gao,
- Abstract要約: DA-Mambaは、注目度の高い対話エンコーダをMambaベースの選択状態空間処理に置き換える対話対応マルチモーダルアーキテクチャである。
DA-Mambaは, コンコーダンス相関係数(CCC)において, 先行技術(SOTA)法を超越していることを示す。
これにより、より長いシーケンスの処理が可能になり、リソース制約のある複数パーティの会話設定でのリアルタイムデプロイメントが容易になる。
- 参考スコア(独自算出の注目度): 15.106664911098882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human engagement estimation in conversational scenarios is essential for applications such as adaptive tutoring, remote healthcare assessment, and socially aware human--computer interaction. Engagement is a dynamic, multimodal signal conveyed by facial expressions, speech, gestures, and behavioral cues over time. In this work we introduce DA-Mamba, a dialogue-aware multimodal architecture that replaces attention-heavy dialogue encoders with Mamba-based selective state-space processing to achieve linear time and memory complexity while retaining expressive cross-modal reasoning. We design a Mamba dialogue-aware selective state-space model composed of three core modules: a Dialogue-Aware Encoder, and two Mamba-based fusion mechanisms: Modality-Group Fusion and Partner-Group Fusion, these modules achieve expressive dialogue understanding. Extensive experiments on three standard benchmarks (NoXi, NoXi-Add, and MPIIGI) show that DA-Mamba surpasses prior state-of-the-art (SOTA) methods in concordance correlation coefficient (CCC), while reducing training time and peak memory; these gains enable processing much longer sequences and facilitate real-time deployment in resource-constrained, multi-party conversational settings. The source code will be available at: https://github.com/kksssssss-ssda/MMEA.
- Abstract(参考訳): 会話シナリオにおける人間のエンゲージメント推定は、適応型チュータリング、リモートヘルスケアアセスメント、社会的に認識された人間とコンピュータの相互作用といった応用に不可欠である。
エンゲージメント(Engagement)は、表情、スピーチ、ジェスチャー、行動的手がかりによって時間とともに伝達される動的でマルチモーダルな信号である。
本研究では, DA-Mambaについて述べる。DA-Mambaは, 注目度の高い対話エンコーダをMambaベースの選択的状態空間処理に置き換え, 表現力のあるクロスモーダル推論を維持しつつ, 線形時間とメモリの複雑さを実現する対話型マルチモーダルアーキテクチャである。
我々は,3つのコアモジュール(対話認識エンコーダ)と,2つのMambaベースの融合機構であるModality-Group FusionとPartner-Group Fusion)からなる,Mambaの対話対応選択状態空間モデルの設計を行った。
3つの標準ベンチマーク(NoXi、NoXi-Add、MPIIGI)の広範な実験により、DA-Mambaは、トレーニング時間とピークメモリを削減しつつ、コンコータンス相関係数(CCC)における従来の最先端(SOTA)メソッドを超越している。
ソースコードは、https://github.com/kksssssss-ssda/MMEA.comで入手できる。
関連論文リスト
- ChatUMM: Robust Context Tracking for Conversational Interleaved Generation [44.19929499646892]
統一マルチモーダルモデル(UMM)は目覚ましい進歩を遂げているが、シングルターン相互作用パラダイムによって制約されている。
本稿では,対話型統合モデルChatUMMを提案する。
ChatUMMは、連続的な会話の流れとしてシリアライズされたテキストイメージストリームをモデル化するインターリーブされたマルチターントレーニング戦略に由来する。
論文 参考訳(メタデータ) (2026-02-06T07:11:50Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。