論文の概要: A Cloud-Based Cross-Modal Transformer for Emotion Recognition and Adaptive Human-Computer Interaction
- arxiv url: http://arxiv.org/abs/2601.14259v1
- Date: Fri, 21 Nov 2025 17:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.806823
- Title: A Cloud-Based Cross-Modal Transformer for Emotion Recognition and Adaptive Human-Computer Interaction
- Title(参考訳): クラウドによる感情認識と適応型ヒューマン・コンピュータインタラクションのためのクロスモーダルトランス
- Authors: Ziwen Zhong, Zhitao Shu, Yue Zhao,
- Abstract要約: マルチモーダル感情認識と適応型ヒューマンコンピュータインタラクションのためのクラウドベースのクロスモーダルトランスフォーマー(CMT)フレームワーク。
モデルは、事前訓練されたエンコーダを使用して、視覚信号、聴覚信号、テキスト信号を統合する。
システムは大規模ユーザインタラクションのためのスケーラブルで低レイテンシな感情認識を可能にする。
- 参考スコア(独自算出の注目度): 4.6927139685668315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition is a fundamental component of next-generation human-computer interaction (HCI), enabling machines to perceive, understand, and respond to users' affective states. However, existing systems often rely on single-modality analysis such as facial expressions, speech tone, or textual sentiment, resulting in limited robustness and poor generalization in real-world environments. To address these challenges, this study proposes a Cloud-Based Cross-Modal Transformer (CMT) framework for multimodal emotion recognition and adaptive human-computer interaction. The proposed model integrates visual, auditory, and textual signals using pretrained encoders (Vision Transformer, Wav2Vec2, and BERT) and employs a cross-modal attention mechanism to capture complex interdependencies among heterogeneous features. By leveraging cloud computing infrastructure with distributed training on Kubernetes and TensorFlow Serving, the system enables scalable, low-latency emotion recognition for large-scale user interactions. Experiments conducted on benchmark datasets including IEMOCAP, MELD, and AffectNet demonstrate that the CMT achieves state-of-the-art performance, improving the F1-score by 3.0 percent and reducing cross-entropy loss by 12.9 percent compared to strong multimodal baselines. Additionally, cloud deployment evaluations show an average response latency of 128 ms, representing a 35 percent reduction compared with conventional transformer-based fusion systems. These results confirm that the proposed framework enables efficient, real-time emotion recognition and adaptive feedback in applications such as intelligent customer service, virtual tutoring systems, and affective computing interfaces, marking an important step toward cloud-native affective computing and emotionally intelligent interactive systems.
- Abstract(参考訳): 感情認識は、マシンがユーザーの感情状態を認識し、理解し、反応できるようにする、次世代のヒューマンコンピュータインタラクション(HCI)の基本的な構成要素である。
しかし、既存のシステムは、表情、音声のトーン、テキストの感情のような単一のモダリティ分析に依存しており、現実の環境では頑丈さや一般化が限られている。
これらの課題に対処するために,マルチモーダル感情認識と適応型ヒューマンコンピュータインタラクションのためのクラウドベースのクロスモーダルトランスフォーマー(CMT)フレームワークを提案する。
提案モデルでは,事前学習したエンコーダ (Vision Transformer, Wav2Vec2, BERT) を用いて視覚, 聴覚, テキスト信号を統合し, 異種特徴間の複雑な相互依存性を捉えるために, 相互注意機構を用いる。
クラウドコンピューティングインフラストラクチャをKubernetesとTensorFlow Servingの分散トレーニングで活用することにより、大規模ユーザインタラクションのためのスケーラブルで低レイテンシな感情認識が可能になる。
IEMOCAP、MELD、AffectNetなどのベンチマークデータセットで実施された実験は、CMTが最先端のパフォーマンスを達成し、F1スコアを3.0%改善し、強いマルチモーダルベースラインに比べて12.9%のクロスエントロピー損失を減少させることを示した。
さらに、クラウドデプロイメントの評価では、128msの平均応答遅延が示されており、従来のトランスフォーマーベースの核融合システムと比較して35%削減されている。
これらの結果は、インテリジェントなカスタマーサービスや仮想チューリングシステム、情緒的コンピューティングインターフェースといったアプリケーションにおいて、効率的なリアルタイムな感情認識と適応的なフィードバックを可能にし、クラウドネイティブな感情的コンピューティングと感情的インテリジェントなインタラクティブシステムへの重要な一歩をマークすることを確認する。
関連論文リスト
- Emotion-Driven Personalized Recommendation for AI-Generated Content Using Multi-Modal Sentiment and Intent Analysis [1.111322427650556]
本研究では,BERTをベースとしたCross-Modal Transformerを用いたマルチモーダル感情認識モデル(MMEI)を提案する。
MMEIは、事前訓練されたエンコーダViT、Wav2Vec2、BERTを介して、視覚的(表情)、聴覚的(音声)、テキスト的(内容または発話)モダリティを処理する。
MMEIモデルは、F1スコアの4.3%の改善と12.3%のクロスエントロピー損失を達成する。
論文 参考訳(メタデータ) (2025-11-25T17:52:22Z) - Synheart Emotion: Privacy-Preserving On-Device Emotion Recognition from Biosignals [0.0]
ほとんどの感情認識システムはクラウドベースの推論に依存しており、リアルタイムアプリケーションには適さないプライバシーの脆弱性とレイテンシの制約を導入している。
本研究は、手首型フォトプレソグラフィーからデバイス上での感情認識のための機械学習アーキテクチャの包括的な評価を行う。
ONNX変換によって最適化された手首のみのExtraTreesモデルをデプロイし,4.08MBのフットプリント,0.05msの推論遅延,オリジナル実装よりも152倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-11-09T05:15:04Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - HadaSmileNet: Hadamard fusion of handcrafted and deep-learning features for enhancing facial emotion recognition of genuine smiles [16.29396284428089]
真の感情とポーズされた感情の区別は、基本的なパターン認識の課題である。
HadaSmileNetは、トランスフォーマーベースの表現と生理的基盤を持つD-Markersを直接統合する、新しい機能融合フレームワークである。
このフレームワークの効率性と有効性は、特にマルチメディアデータマイニングアプリケーションにおける実践的なデプロイに適している。
論文 参考訳(メタデータ) (2025-09-23T02:20:43Z) - Emotion Detection on User Front-Facing App Interfaces for Enhanced Schedule Optimization: A Machine Learning Approach [0.0]
感情検出に対する2つの補完的アプローチを提示し,評価する。
心電図(ECG)信号から抽出した心拍数(HR)データを用いて、ヴァレンス、オーラル、ドミナンスの感情次元を予測し、複数の機械学習モデルを介してコンピュータ活動を分析し、マウスの動き、クリック、キーストロークパターンなどのきめ細かいユーザーインタラクションに基づいて感情を分類する行動的方法。
実世界のデータセットから得られた我々の比較分析によると、どちらの手法も有効性を示す一方で、コンピュータアクティビティに基づく手法は、特にマウス関連の相互作用において、より優れた一貫性と精度を提供する。
論文 参考訳(メタデータ) (2025-06-24T03:21:46Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。