論文の概要: Agent-Based Modular Learning for Multimodal Emotion Recognition in Human-Agent Systems
- arxiv url: http://arxiv.org/abs/2512.10975v1
- Date: Tue, 02 Dec 2025 21:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.674182
- Title: Agent-Based Modular Learning for Multimodal Emotion Recognition in Human-Agent Systems
- Title(参考訳): 人間エージェントシステムにおけるマルチモーダル感情認識のためのエージェントベースモジュール学習
- Authors: Matvey Nepomnyaschiy, Oleg Pereziabov, Anvar Tliamov, Stanislav Mikhailov, Ilya Afanasyev,
- Abstract要約: 本稿では,マルチモーダル感情認識システムの学習のための新しいマルチエージェントフレームワークを提案する。
このアーキテクチャは、新しいモダリティのモジュラー統合を可能にする。
本稿では,概念実証実装によるアプローチの実現可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective human-agent interaction (HAI) relies on accurate and adaptive perception of human emotional states. While multimodal deep learning models - leveraging facial expressions, speech, and textual cues - offer high accuracy in emotion recognition, their training and maintenance are often computationally intensive and inflexible to modality changes. In this work, we propose a novel multi-agent framework for training multimodal emotion recognition systems, where each modality encoder and the fusion classifier operate as autonomous agents coordinated by a central supervisor. This architecture enables modular integration of new modalities (e.g., audio features via emotion2vec), seamless replacement of outdated components, and reduced computational overhead during training. We demonstrate the feasibility of our approach through a proof-of-concept implementation supporting vision, audio, and text modalities, with the classifier serving as a shared decision-making agent. Our framework not only improves training efficiency but also contributes to the design of more flexible, scalable, and maintainable perception modules for embodied and virtual agents in HAI scenarios.
- Abstract(参考訳): 効果的な人間-エージェント相互作用(HAI)は、人間の感情状態の正確で適応的な認識に依存している。
マルチモーダルなディープラーニングモデル - 表情、スピーチ、テキストの手がかりを活用する – は、感情認識において高い精度を提供するが、そのトレーニングとメンテナンスは、しばしば計算集約的で、モダリティの変化に柔軟である。
本研究では,マルチモーダル感情認識システムを学習するための新しいマルチエージェントフレームワークを提案し,各モーダルエンコーダと融合分類器を中央監督官が協調する自律エージェントとして動作させる。
このアーキテクチャは、新しいモダリティ(例えば、感情2vecによるオーディオ機能)のモジュール化、古いコンポーネントのシームレスな置き換え、トレーニング中の計算オーバーヘッドの削減を可能にする。
本稿では,視覚,音声,テキストのモダリティをサポートする概念実証実装を通じて,提案手法の有効性を実証する。
私たちのフレームワークは、トレーニング効率を向上するだけでなく、HAIシナリオの具体化および仮想エージェントのための、より柔軟で、スケーラブルで、メンテナンス可能な知覚モジュールの設計にも貢献します。
関連論文リスト
- Feature Aggregation for Efficient Continual Learning of Complex Facial Expressions [0.0]
表情認識のためのハイブリッドフレームワーク(FER)を提案する。
本モデルでは,まず基本表現を学習し,次に複合表現を段階的に認識できることが示される。
実験では、精度の向上、知識の保持の強化、忘れの削減が示されている。
論文 参考訳(メタデータ) (2025-12-13T10:39:17Z) - Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-09-27T19:43:04Z) - Emotion Recognition with CLIP and Sequential Learning [5.66758879852618]
本稿では,Valence-Arousal (VA) Estimation Challenge, Expression Recognition Challenge, and the Action Unit (AU) Detection Challengeについて述べる。
本手法では,継続的な感情認識の促進を目的とした新しい枠組みを導入する。
論文 参考訳(メタデータ) (2025-03-13T01:02:06Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Versatile audio-visual learning for emotion recognition [28.26077129002198]
本研究では,非モーダル・マルチモーダルシステムを扱うための多目的音声視覚学習フレームワークを提案する。
我々は,この効果的な表現学習を,音声-視覚的共有層,共有層上の残差接続,および非モーダル再構成タスクで実現した。
特に、VAVLは、MSP-IMPROVコーパスの感情予測タスクにおいて、新しい最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-05-12T03:13:37Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。