論文の概要: Independent Sign Language Recognition with 3D Body, Hands, and Face
Reconstruction
- arxiv url: http://arxiv.org/abs/2012.05698v1
- Date: Tue, 24 Nov 2020 23:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:36:07.722546
- Title: Independent Sign Language Recognition with 3D Body, Hands, and Face
Reconstruction
- Title(参考訳): 3次元体・手・顔再構成を用いた独立手話認識
- Authors: Agelos Kratimenos, Georgios Pavlakos, Petros Maragos
- Abstract要約: 独立手話認識(Independent Sign Language Recognition)は、コンピュータビジョンのいくつかの課題を組み合わせた複雑な視覚認識問題である。
3つの情報チャネルを適切に組み合わせて手話の認識を効果的に行う作業は行われていない。
SMPL-Xは,1枚の画像から3次元の身体形状,顔,手の情報を同時抽出できる,現代のパラメトリックモデルである。
- 参考スコア(独自算出の注目度): 46.70761714133466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independent Sign Language Recognition is a complex visual recognition problem
that combines several challenging tasks of Computer Vision due to the necessity
to exploit and fuse information from hand gestures, body features and facial
expressions. While many state-of-the-art works have managed to deeply elaborate
on these features independently, to the best of our knowledge, no work has
adequately combined all three information channels to efficiently recognize
Sign Language. In this work, we employ SMPL-X, a contemporary parametric model
that enables joint extraction of 3D body shape, face and hands information from
a single image. We use this holistic 3D reconstruction for SLR, demonstrating
that it leads to higher accuracy than recognition from raw RGB images and their
optical flow fed into the state-of-the-art I3D-type network for 3D action
recognition and from 2D Openpose skeletons fed into a Recurrent Neural Network.
Finally, a set of experiments on the body, face and hand features showed that
neglecting any of these, significantly reduces the classification accuracy,
proving the importance of jointly modeling body shape, facial expression and
hand pose for Sign Language Recognition.
- Abstract(参考訳): 独立手話認識(Independent Sign Language Recognition)は、手の動き、身体の特徴、表情から情報を利用して融合する必要があるため、コンピュータビジョンのいくつかの困難なタスクを組み合わせる複雑な視覚認識問題である。
多くの最先端の研究はこれらの特徴を独立して深く掘り下げてきたが、私たちの知る限りでは、手話の認識を効率的にするために3つの情報チャネルを適切に組み合わせた作業は行われていない。
本研究では,1枚の画像から3次元の身体形状,顔,手の情報を同時抽出できる同時代のパラメトリックモデルSMPL-Xを用いる。
3dアクション認識のための最先端のi3d型ネットワークと、リカレントニューラルネットワークに供給される2dopenposeスケルトンに供給される光フローによって、生のrgb画像からの認識よりも高い精度をもたらすことを実証した。
最後に、身体、顔、手の特徴に関する一連の実験により、これらを無視することで分類精度が著しく低下し、手話認識における身体形状、表情、手のポーズを共同モデル化することの重要性が証明された。
関連論文リスト
- DrFER: Learning Disentangled Representations for 3D Facial Expression
Recognition [28.318304721838096]
本稿では,3D FERの分野に非交叉表現学習の概念を取り入れた,革新的なDrFER法を提案する。
DrFERは、表現情報をID情報から効果的に切り離すために、デュアルブランチフレームワークを使用している。
この適応は、顔の表情を認識する際の枠組みの能力を高める。
論文 参考訳(メタデータ) (2024-03-13T08:00:07Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Word-level Sign Language Recognition with Multi-stream Neural Networks
Focusing on Local Regions [17.766396543732753]
本稿では,ローカル領域の画像を含むストリームと,骨格情報を持つストリームを導入した,新しいマルチストリームWSLRフレームワークを提案する。
WLASLデータセットの実験結果から,提案手法がTop-1精度で約15%向上したことが明らかとなった。
論文 参考訳(メタデータ) (2021-06-30T11:30:06Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z) - Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。
まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。
我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文 参考訳(メタデータ) (2020-10-09T06:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。