論文の概要: HaHeAE: Learning Generalisable Joint Representations of Human Hand and Head Movements in Extended Reality
- arxiv url: http://arxiv.org/abs/2410.16430v1
- Date: Mon, 21 Oct 2024 18:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:58.604184
- Title: HaHeAE: Learning Generalisable Joint Representations of Human Hand and Head Movements in Extended Reality
- Title(参考訳): HaHeAE: 拡張現実における人間の手と頭の動きの一般的な共同表現の学習
- Authors: Zhiming Hu, Guanhua Zhang, Zheming Yin, Daniel Haeufle, Syn Schmitt, Andreas Bulling,
- Abstract要約: HaHeAEは、XRにおける手と頭の動きの一般化可能な関節表現を学習するための、新しい自己指導手法である。
提案手法は, 再建品質の点で, 一般的な自己管理手法よりも74.0%高い性能を示した。
- 参考スコア(独自算出の注目度): 12.66912930544108
- License:
- Abstract: Human hand and head movements are the most pervasive input modalities in extended reality (XR) and are significant for a wide range of applications. However, prior works on hand and head modelling in XR only explored a single modality or focused on specific applications. We present HaHeAE - a novel self-supervised method for learning generalisable joint representations of hand and head movements in XR. At the core of our method is an autoencoder (AE) that uses a graph convolutional network-based semantic encoder and a diffusion-based stochastic encoder to learn the joint semantic and stochastic representations of hand-head movements. It also features a diffusion-based decoder to reconstruct the original signals. Through extensive evaluations on three public XR datasets, we show that our method 1) significantly outperforms commonly used self-supervised methods by up to 74.0% in terms of reconstruction quality and is generalisable across users, activities, and XR environments, 2) enables new applications, including interpretable hand-head cluster identification and variable hand-head movement generation, and 3) can serve as an effective feature extractor for downstream tasks. Together, these results demonstrate the effectiveness of our method and underline the potential of self-supervised methods for jointly modelling hand-head behaviours in extended reality.
- Abstract(参考訳): 人間の手と頭の動きは、拡張現実(XR)において最も広く普及している入力モダリティであり、幅広い応用において重要である。
しかしながら、XRにおける手動および頭部モデリングに関する先行研究は、単一のモダリティを探求するか、特定のアプリケーションに焦点を当てただけであった。
本稿では,XRにおける手と頭の動きの一般化可能な関節表現を学習するための,新しい自己指導手法HaHeAEを提案する。
本手法のコアとなるのは、グラフ畳み込みネットワークに基づくセマンティックエンコーダと拡散に基づく確率エンコーダを用いて、手首運動の関節意味と確率表現を学習するオートエンコーダ(AE)である。
また、拡散ベースのデコーダを備え、元の信号を再構成する。
3つの公開XRデータセットの広範囲な評価を通して、我々の手法が示される。
1) ユーザ, 活動, XR環境において, 自己管理手法を74.0%まで向上させ, ユーザ, 活動, XR環境にまたがって一般化可能である。
2) 解釈可能な手頭クラスタ識別と可変手頭移動生成を含む新しいアプリケーションを可能にする。
3)下流タスクの効果的な特徴抽出器として機能する。
これらの結果は,提案手法の有効性を実証し,拡張現実における手首動作を協調的にモデル化する自己指導手法の可能性を明らかにするものである。
関連論文リスト
- Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。