論文の概要: Towards Inclusive HRI: Using Sim2Real to Address Underrepresentation in
Emotion Expression Recognition
- arxiv url: http://arxiv.org/abs/2208.07472v1
- Date: Mon, 15 Aug 2022 23:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:31:57.588634
- Title: Towards Inclusive HRI: Using Sim2Real to Address Underrepresentation in
Emotion Expression Recognition
- Title(参考訳): インクルーシブhriに向けて:sim2realを用いて感情表現認識の低表現に対処
- Authors: Saba Akhyani, Mehryar Abbasi Boroujeni, Mo Chen, Angelica Lim
- Abstract要約: 我々は、より透明で包括的な方法で人間を知覚できるシステムを構築することを目指している。
我々は、Sim2Realアプローチを使い、3Dシミュレーションされた人間のモデルスイートを使用します。
4536個のサンプルを含む合成データセットを用いて、小さな動的感情表現データセットを増強することにより、精度15%の改善を実現した。
- 参考スコア(独自算出の注目度): 5.819149317261972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots and artificial agents that interact with humans should be able to do
so without bias and inequity, but facial perception systems have notoriously
been found to work more poorly for certain groups of people than others. In our
work, we aim to build a system that can perceive humans in a more transparent
and inclusive manner. Specifically, we focus on dynamic expressions on the
human face, which are difficult to collect for a broad set of people due to
privacy concerns and the fact that faces are inherently identifiable.
Furthermore, datasets collected from the Internet are not necessarily
representative of the general population. We address this problem by offering a
Sim2Real approach in which we use a suite of 3D simulated human models that
enables us to create an auditable synthetic dataset covering 1)
underrepresented facial expressions, outside of the six basic emotions, such as
confusion; 2) ethnic or gender minority groups; and 3) a wide range of viewing
angles that a robot may encounter a human in the real world. By augmenting a
small dynamic emotional expression dataset containing 123 samples with a
synthetic dataset containing 4536 samples, we achieved an improvement in
accuracy of 15% on our own dataset and 11% on an external benchmark dataset,
compared to the performance of the same model architecture without synthetic
training data. We also show that this additional step improves accuracy
specifically for racial minorities when the architecture's feature extraction
weights are trained from scratch.
- Abstract(参考訳): 人間と対話するロボットや人工エージェントは、バイアスや不平等を伴わずにそれを行うことができるべきだが、顔の知覚システムは、特定のグループに対して他のグループよりもうまくいかないことが知られている。
私たちの研究は、より透明で包括的な方法で人間を知覚できるシステムを構築することを目的としています。
具体的には、プライバシの懸念と、顔が本質的に識別可能であるという事実により、広範囲の人々の収集が困難である人間の顔に対する動的表現に焦点を当てる。
さらに、インターネットから収集されたデータセットは必ずしも一般人口を代表するものではない。
我々はSim2Realアプローチによってこの問題に対処し、3Dシミュレーションされた人間のモデルを用いて監査可能な合成データセットを作成する。
1) 混乱などの6つの基本的な感情以外の表情の表現不足
2 少数民族又は性別の少数民族
3) ロボットが現実世界で人間と遭遇する可能性のある広い視野角。
4536のサンプルを含む合成データセットで123のサンプルを含む小さな動的感情表現データセットを増強することにより、合成トレーニングデータなしで同じモデルアーキテクチャの性能と比較して、我々のデータセットで15%、外部ベンチマークデータセットで11%の精度向上を実現した。
また、この追加ステップにより、アーキテクチャの機能抽出重みがスクラッチからトレーニングされた場合に、特に少数民族の精度が向上することを示す。
関連論文リスト
- Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Facial Emotion Recognition using Deep Residual Networks in Real-World
Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。
データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。
感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文 参考訳(メタデータ) (2021-11-04T10:08:22Z) - Fake It Till You Make It: Face analysis in the wild using synthetic data
alone [9.081019005437309]
合成データだけで顔関連コンピュータビジョンを野生で実行可能であることを示す。
本稿では、手続き的に生成された3次元顔モデルと手作り資産の包括的ライブラリを組み合わせることで、前例のないリアリズムによるトレーニング画像のレンダリングを行う方法について述べる。
論文 参考訳(メタデータ) (2021-09-30T13:07:04Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。