論文の概要: MoEmo Vision Transformer: Integrating Cross-Attention and Movement
Vectors in 3D Pose Estimation for HRI Emotion Detection
- arxiv url: http://arxiv.org/abs/2310.09757v1
- Date: Sun, 15 Oct 2023 06:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:20:43.719090
- Title: MoEmo Vision Transformer: Integrating Cross-Attention and Movement
Vectors in 3D Pose Estimation for HRI Emotion Detection
- Title(参考訳): MoEmo Vision Transformer:HRI感情検出のための3次元姿勢推定におけるクロスアテンションと運動ベクトルの統合
- Authors: David C. Jeong, Tianma Shen, Hongji Liu, Raghav Kapoor, Casey Nguyen,
Song Liu, Christopher A. Kitts
- Abstract要約: ロボットシステム内での人間の感情検出のためのクロスアテンション・ビジョン・トランスフォーマ(ViT)であるMoEmo(Motion to Emotion)を紹介する。
我々は,移動ベクトルと環境コンテキストを結合表現に組み合わせ,感情推定を導出するクロスアテンション融合モデルを実装した。
我々はMoEmoシステムをトレーニングし、動きとコンテキストを共同で分析し、現在の最先端よりも優れた感情を検出する。
- 参考スコア(独自算出の注目度): 4.757210144179483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion detection presents challenges to intelligent human-robot interaction
(HRI). Foundational deep learning techniques used in emotion detection are
limited by information-constrained datasets or models that lack the necessary
complexity to learn interactions between input data elements, such as the the
variance of human emotions across different contexts. In the current effort, we
introduce 1) MoEmo (Motion to Emotion), a cross-attention vision transformer
(ViT) for human emotion detection within robotics systems based on 3D human
pose estimations across various contexts, and 2) a data set that offers
full-body videos of human movement and corresponding emotion labels based on
human gestures and environmental contexts. Compared to existing approaches, our
method effectively leverages the subtle connections between movement vectors of
gestures and environmental contexts through the use of cross-attention on the
extracted movement vectors of full-body human gestures/poses and feature maps
of environmental contexts. We implement a cross-attention fusion model to
combine movement vectors and environment contexts into a joint representation
to derive emotion estimation. Leveraging our Naturalistic Motion Database, we
train the MoEmo system to jointly analyze motion and context, yielding emotion
detection that outperforms the current state-of-the-art.
- Abstract(参考訳): 感情検出は知的人間ロボット相互作用(HRI)に課題をもたらす。
感情検出に使用される基礎的なディープラーニング技術は、異なる文脈における人間の感情の分散など、入力データ要素間の相互作用を学ぶために必要な複雑さを欠いた情報制約データセットやモデルによって制限される。
現在の取り組みで紹介する
1)多様な文脈における3次元ポーズ推定に基づくロボットシステムにおける人間の感情検出のためのクロス・アテンション・ビジョントランスフォーマ(vit)moemo(motion to emotion)
2)人間のジェスチャーや環境状況に基づいて,人間の動きと対応する感情ラベルの全身映像を提供するデータセット。
既存の手法と比較して, ジェスチャーの動作ベクトルと環境コンテキストとの微妙な接続を, 全身ジェスチャの抽出された動きベクトルと環境コンテキストの特徴マップにクロスタッチすることにより効果的に活用する。
我々は,移動ベクトルと環境コンテキストを結合表現に組み合わせ,感情推定を導出するクロスアテンション融合モデルを実装した。
自然運動データベースを活用することで、MoEmoシステムをトレーニングし、動きとコンテキストを共同で分析し、現在の最先端よりも優れた感情を検出する。
関連論文リスト
- EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Exploring Emotions in Multi-componential Space using Interactive VR Games [1.1510009152620668]
インタラクティブバーチャルリアリティ(VR)ゲームを用いたデータ駆動型アプローチを運用した。
機械学習(ML)手法を用いて、各コンポーネントの感情分化に対するユニークな貢献を識別した。
これらの知見は、感情研究におけるVR環境の利用にも影響する。
論文 参考訳(メタデータ) (2024-04-04T06:54:44Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。
人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。
我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文 参考訳(メタデータ) (2021-05-31T09:05:50Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - Affective Movement Generation using Laban Effort and Shape and Hidden
Markov Models [6.181642248900806]
本稿では,1)ラベル移動解析(LMA)と2)隠れマルコフモデリングという2つの運動抽象化を用いた自動感情運動生成手法を提案する。
LMAは運動の運動的特徴と表現的特徴を抽象的に表現するための体系的なツールを提供する。
特定された動作のHMM抽象化を取得し、所望の動作経路を用いて、対象の感情を伝達する新たな動きを生成する。
評価された自動認識モデルとユーザスタディを用いて、認識可能な目標感情を持つ動きを生成するための提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2020-06-10T21:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。