論文の概要: Hybrid-supervised Hypergraph-enhanced Transformer for Micro-gesture Based Emotion Recognition
- arxiv url: http://arxiv.org/abs/2507.14867v1
- Date: Sun, 20 Jul 2025 08:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.096904
- Title: Hybrid-supervised Hypergraph-enhanced Transformer for Micro-gesture Based Emotion Recognition
- Title(参考訳): ハイブリッド教師付きハイパーグラフ強調変換器による微小姿勢認識
- Authors: Zhaoqiang Xia, Hexiang Huang, Haoyu Chen, Xiaoyi Feng, Guoying Zhao,
- Abstract要約: マイクロジェスチャーは、人間の感情状態を伝達できる無意識の身体ジェスチャーである。
ハイパーグラフ強調変換器を用いて行動パターンを再構成することにより,マイクロジェスチャーに基づく感情状態の認識を提案する。
提案手法は,iMiGUEとSMGの2つの公開データセットで評価される。
- 参考スコア(独自算出の注目度): 30.016692048849226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-gestures are unconsciously performed body gestures that can convey the emotion states of humans and start to attract more research attention in the fields of human behavior understanding and affective computing as an emerging topic. However, the modeling of human emotion based on micro-gestures has not been explored sufficiently. In this work, we propose to recognize the emotion states based on the micro-gestures by reconstructing the behavior patterns with a hypergraph-enhanced Transformer in a hybrid-supervised framework. In the framework, hypergraph Transformer based encoder and decoder are separately designed by stacking the hypergraph-enhanced self-attention and multiscale temporal convolution modules. Especially, to better capture the subtle motion of micro-gestures, we construct a decoder with additional upsampling operations for a reconstruction task in a self-supervised learning manner. We further propose a hypergraph-enhanced self-attention module where the hyperedges between skeleton joints are gradually updated to present the relationships of body joints for modeling the subtle local motion. Lastly, for exploiting the relationship between the emotion states and local motion of micro-gestures, an emotion recognition head from the output of encoder is designed with a shallow architecture and learned in a supervised way. The end-to-end framework is jointly trained in a one-stage way by comprehensively utilizing self-reconstruction and supervision information. The proposed method is evaluated on two publicly available datasets, namely iMiGUE and SMG, and achieves the best performance under multiple metrics, which is superior to the existing methods.
- Abstract(参考訳): マイクロ・ジェスチャは、人間の感情状態を伝達し、人間の行動理解や感情的コンピューティングの分野において、より研究の注意を惹きつけることができる無意識の身体ジェスチャーである。
しかし、微小な姿勢に基づく人間の感情のモデリングは十分に研究されていない。
本研究では,ハイブリット・教師付きフレームワークにおいて,ハイパーグラフ・エンハンス・トランスフォーマを用いて行動パターンを再構成することにより,マイクロジェスチャーに基づく感情状態の認識を提案する。
このフレームワークでは、ハイパーグラフトランスフォーマーベースのエンコーダとデコーダは、ハイパーグラフ強化された自己アテンションとマルチスケールの時間的畳み込みモジュールを積み重ねて別々に設計される。
特に, マイクロジェスチャーの微妙な動きをよりよく捉えるために, 自己教師型学習方式で, 再構成作業のためのアップサンプリング操作を付加したデコーダを構築した。
さらに, 骨格関節間のハイパーエッジを徐々に更新し, 微妙な局所運動をモデル化するための身体関節の関係を提示するハイパーグラフ強調自己保持モジュールを提案する。
最後に, エンコーダの出力から得られる感情認識ヘッドを浅いアーキテクチャで設計し, 教師あり方式で学習する。
エンドツーエンドのフレームワークは、自己構築と監視情報を包括的に活用することにより、ワンステージで共同で訓練される。
提案手法は,iMiGUE と SMG の2つの公開データセット上で評価され,既存の手法よりも優れた複数の指標の下で最高の性能を実現する。
関連論文リスト
- Perception Activator: An intuitive and portable framework for brain cognitive exploration [19.851643249367108]
干渉条件としてfMRI表現を用いる実験フレームワークを開発した。
オブジェクト検出とインスタンス分割タスクにおける下流性能と中間的特徴の変化をfMRI情報の有無で比較した。
以上の結果から,fMRIには多目的セマンティック・キューが豊富に含まれていることが証明された。
論文 参考訳(メタデータ) (2025-07-03T04:46:48Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition [16.616341358877243]
本研究は,表情解析と脳波信号の統合による感情認識の課題に対処する。
提案するフレームワークは、視覚的および生理的モダリティを効果的に統合するために、トランスフォーマーベースの融合アプローチを採用している。
この研究の重要な革新は、複数の表情画像から意味のある情報を抽出する多重インスタンス学習(MIL)アプローチの採用である。
論文 参考訳(メタデータ) (2025-02-01T20:32:57Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - A Multi-label Classification Approach to Increase Expressivity of
EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。
動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文 参考訳(メタデータ) (2023-09-13T20:21:41Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。