論文の概要: Headset: Human emotion awareness under partial occlusions multimodal
dataset
- arxiv url: http://arxiv.org/abs/2402.09107v1
- Date: Wed, 14 Feb 2024 11:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:41:36.740432
- Title: Headset: Human emotion awareness under partial occlusions multimodal
dataset
- Title(参考訳): 頭部: 部分閉塞型マルチモーダルデータセットによる人間の感情認識
- Authors: Fatemeh Ghorbani Lohesara, Davi Rabbouni Freitas, Christine Guillemot,
Karen Eguiazarian, Sebastian Knorr
- Abstract要約: 本稿では,没入型技術の発展を支援するため,新しいマルチモーダルデータベースを提案する。
提案するデータベースは倫理的に適合する多種多様なボリュームデータを提供し、特に27人の参加者が発話中に表情や微妙な身体の動きを呈示し、11人の参加者がヘッドマウントディスプレイ(HMD)を着用している。
このデータセットは、表情認識と再構成、顔の再現、ボリュームビデオなど、さまざまなXRアルゴリズムの評価とパフォーマンステストに役立てることができる。
- 参考スコア(独自算出の注目度): 19.57427512904342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The volumetric representation of human interactions is one of the fundamental
domains in the development of immersive media productions and telecommunication
applications. Particularly in the context of the rapid advancement of Extended
Reality (XR) applications, this volumetric data has proven to be an essential
technology for future XR elaboration. In this work, we present a new multimodal
database to help advance the development of immersive technologies. Our
proposed database provides ethically compliant and diverse volumetric data, in
particular 27 participants displaying posed facial expressions and subtle body
movements while speaking, plus 11 participants wearing head-mounted displays
(HMDs). The recording system consists of a volumetric capture (VoCap) studio,
including 31 synchronized modules with 62 RGB cameras and 31 depth cameras. In
addition to textured meshes, point clouds, and multi-view RGB-D data, we use
one Lytro Illum camera for providing light field (LF) data simultaneously.
Finally, we also provide an evaluation of our dataset employment with regard to
the tasks of facial expression classification, HMDs removal, and point cloud
reconstruction. The dataset can be helpful in the evaluation and performance
testing of various XR algorithms, including but not limited to facial
expression recognition and reconstruction, facial reenactment, and volumetric
video. HEADSET and its all associated raw data and license agreement will be
publicly available for research purposes.
- Abstract(参考訳): 人間の相互作用の体積表現は、没入型メディア制作と通信アプリケーションの開発における基本的な領域の1つである。
特に、拡張現実感(XR)アプリケーションの急速な進歩の状況において、このボリュームデータは将来のXR開発に欠かせない技術であることが証明されている。
本研究では,没入型技術の発展を支援するため,新しいマルチモーダルデータベースを提案する。
提案するデータベースは, 倫理的に適合し, 多様なボリュームデータを提供する。特に27名の参加者は, 表情や微妙な体の動きを話しながら表示し, 11名の参加者は頭部ディスプレイ (hmd) を着用している。
録音システムにはボリュームキャプチャ(vocap)スタジオがあり、31の同期モジュールと62のrgbカメラ、31の深度カメラがある。
テクスチャメッシュ,点雲,マルチビューRGB-Dデータに加えて,Lytro Illumカメラを用いて光フィールド(LF)データを同時に提供する。
最後に,表情分類やHMDの除去,点群再構成といったタスクに関して,データセットの利用状況を評価する。
このデータセットは、表情認識と再構成、顔の再現、ボリュームビデオなど、さまざまなXRアルゴリズムの評価とパフォーマンステストに役立てることができる。
HEADSETとその関連するすべての生データおよびライセンス契約は、研究目的で公開されている。
関連論文リスト
- MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans [4.098892268127572]
物理シミュレーター(AI2-THOR)内の参加者間の会話を記録するためにVRヘッドセットを用いた新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
論文 参考訳(メタデータ) (2024-09-30T21:51:30Z) - Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - Aria-NeRF: Multimodal Egocentric View Synthesis [17.0554791846124]
ニューラルラジアンス場(NeRFs)にインスパイアされた可変体積線トレーシングに基づく、エゴセントリックなデータから訓練されたリッチでマルチモーダルなシーンモデルの開発における研究の加速を目指す。
このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計による気圧測定、GPSによる位置座標、デュアル周波数IMUデータセット(1kHzと800Hz)の情報を含む、総合的なセンサデータの収集を提供する。
このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、より没入的でインテリジェントな体験を可能にするための堅牢な基盤となる。
論文 参考訳(メタデータ) (2023-11-11T01:56:35Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - Multi-sensor large-scale dataset for multi-view 3D reconstruction [63.59401680137808]
マルチビュー3次元表面再構成のための新しいマルチセンサデータセットを提案する。
スマートフォン、Intel RealSense、Microsoft Kinect、産業用カメラ、構造化光スキャナーなどだ。
14の照明条件下で100方向から取得した107の異なるシーンの約1.4万枚の画像を提供する。
論文 参考訳(メタデータ) (2022-03-11T17:32:27Z) - EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy
Communication in Noisy Environments [43.05826988957987]
我々は、ARメガネ着用者の会話を改善するアルゴリズムのトレーニングとテストに有用な5時間以上のマルチモーダルデータを含むデータセットをリリースする。
ベースライン法に対して,音声の可聴性,品質,信号対雑音比の改善結果を提供し,全試験指標に比較して改善を示す。
論文 参考訳(メタデータ) (2021-07-09T02:00:47Z) - Unmasking Communication Partners: A Low-Cost AI Solution for Digitally
Removing Head-Mounted Displays in VR-Based Telepresence [62.997667081978825]
バーチャルリアリティ(VR)における対面会話は、被験者がヘッドマウントディスプレイ(HMD)を装着する際の課題である
過去の研究では、高コストハードウェアを用いた実験室環境では、VRで個人用アバターを用いた高忠実な顔再構成が可能であることが示されている。
我々は,オープンソース,フリーソフトウェア,安価なハードウェアのみを利用する,このタスクのための最初の低コストシステムを提案する。
論文 参考訳(メタデータ) (2020-11-06T23:17:12Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。