論文の概要: Independent Sign Language Recognition with 3D Body, Hands, and Face
Reconstruction
- arxiv url: http://arxiv.org/abs/2012.05698v1
- Date: Tue, 24 Nov 2020 23:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:36:07.722546
- Title: Independent Sign Language Recognition with 3D Body, Hands, and Face
Reconstruction
- Title(参考訳): 3次元体・手・顔再構成を用いた独立手話認識
- Authors: Agelos Kratimenos, Georgios Pavlakos, Petros Maragos
- Abstract要約: 独立手話認識(Independent Sign Language Recognition)は、コンピュータビジョンのいくつかの課題を組み合わせた複雑な視覚認識問題である。
3つの情報チャネルを適切に組み合わせて手話の認識を効果的に行う作業は行われていない。
SMPL-Xは,1枚の画像から3次元の身体形状,顔,手の情報を同時抽出できる,現代のパラメトリックモデルである。
- 参考スコア(独自算出の注目度): 46.70761714133466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independent Sign Language Recognition is a complex visual recognition problem
that combines several challenging tasks of Computer Vision due to the necessity
to exploit and fuse information from hand gestures, body features and facial
expressions. While many state-of-the-art works have managed to deeply elaborate
on these features independently, to the best of our knowledge, no work has
adequately combined all three information channels to efficiently recognize
Sign Language. In this work, we employ SMPL-X, a contemporary parametric model
that enables joint extraction of 3D body shape, face and hands information from
a single image. We use this holistic 3D reconstruction for SLR, demonstrating
that it leads to higher accuracy than recognition from raw RGB images and their
optical flow fed into the state-of-the-art I3D-type network for 3D action
recognition and from 2D Openpose skeletons fed into a Recurrent Neural Network.
Finally, a set of experiments on the body, face and hand features showed that
neglecting any of these, significantly reduces the classification accuracy,
proving the importance of jointly modeling body shape, facial expression and
hand pose for Sign Language Recognition.
- Abstract(参考訳): 独立手話認識(Independent Sign Language Recognition)は、手の動き、身体の特徴、表情から情報を利用して融合する必要があるため、コンピュータビジョンのいくつかの困難なタスクを組み合わせる複雑な視覚認識問題である。
多くの最先端の研究はこれらの特徴を独立して深く掘り下げてきたが、私たちの知る限りでは、手話の認識を効率的にするために3つの情報チャネルを適切に組み合わせた作業は行われていない。
本研究では,1枚の画像から3次元の身体形状,顔,手の情報を同時抽出できる同時代のパラメトリックモデルSMPL-Xを用いる。
3dアクション認識のための最先端のi3d型ネットワークと、リカレントニューラルネットワークに供給される2dopenposeスケルトンに供給される光フローによって、生のrgb画像からの認識よりも高い精度をもたらすことを実証した。
最後に、身体、顔、手の特徴に関する一連の実験により、これらを無視することで分類精度が著しく低下し、手話認識における身体形状、表情、手のポーズを共同モデル化することの重要性が証明された。
関連論文リスト
- ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - 3D Facial Expressions through Analysis-by-Neural-Synthesis [30.2749903946587]
SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)は、画像から表現力のある3次元顔を忠実に再構築する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
論文 参考訳(メタデータ) (2024-04-05T14:00:07Z) - DrFER: Learning Disentangled Representations for 3D Facial Expression
Recognition [28.318304721838096]
本稿では,3D FERの分野に非交叉表現学習の概念を取り入れた,革新的なDrFER法を提案する。
DrFERは、表現情報をID情報から効果的に切り離すために、デュアルブランチフレームワークを使用している。
この適応は、顔の表情を認識する際の枠組みの能力を高める。
論文 参考訳(メタデータ) (2024-03-13T08:00:07Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。
まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。
我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文 参考訳(メタデータ) (2020-10-09T06:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。