論文の概要: Reconstructing Signing Avatars From Video Using Linguistic Priors
- arxiv url: http://arxiv.org/abs/2304.10482v1
- Date: Thu, 20 Apr 2023 17:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:18:40.882863
- Title: Reconstructing Signing Avatars From Video Using Linguistic Priors
- Title(参考訳): 言語前置詞を用いたビデオからの署名アバターの再構成
- Authors: Maria-Paola Forte and Peter Kulits and Chun-Hao Huang and Vasileios
Choutas and Dimitrios Tzionas and Katherine J. Kuchenbecker and Michael J.
Black
- Abstract要約: 手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。
孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。
SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
- 参考スコア(独自算出の注目度): 54.5282429129769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language (SL) is the primary method of communication for the 70 million
Deaf people around the world. Video dictionaries of isolated signs are a core
SL learning tool. Replacing these with 3D avatars can aid learning and enable
AR/VR applications, improving access to technology and online media. However,
little work has attempted to estimate expressive 3D avatars from SL video;
occlusion, noise, and motion blur make this task difficult. We address this by
introducing novel linguistic priors that are universally applicable to SL and
provide constraints on 3D hand pose that help resolve ambiguities within
isolated signs. Our method, SGNify, captures fine-grained hand pose, facial
expression, and body movement fully automatically from in-the-wild monocular SL
videos. We evaluate SGNify quantitatively by using a commercial motion-capture
system to compute 3D avatars synchronized with monocular video. SGNify
outperforms state-of-the-art 3D body-pose- and shape-estimation methods on SL
videos. A perceptual study shows that SGNify's 3D reconstructions are
significantly more comprehensible and natural than those of previous methods
and are on par with the source videos. Code and data are available at
$\href{http://sgnify.is.tue.mpg.de}{\text{sgnify.is.tue.mpg.de}}$.
- Abstract(参考訳): 手話(SL)は、世界中の7000万人の聴覚障害者のコミュニケーションの主要な方法である。
孤立標識のビデオ辞書は中核的なSL学習ツールである。
これらを3Dアバターで置き換えることで、学習とAR/VRアプリケーションの実現を支援し、技術やオンラインメディアへのアクセスを改善することができる。
しかし、SLビデオから表現力のある3Dアバターを推定する試みはほとんど行われていない。
SLに普遍的に適用可能な新しい言語的先行概念を導入し、孤立した記号のあいまいさを解決する3Dハンドポーズに制約を与える。
提案手法sgnifyは,手指の微細なポーズ,表情,体の動きを,野生単眼slビデオから完全に自動で計測する。
商用モーションキャプチャシステムを用いて,モノクロ映像と同期した3Dアバターを定量的に評価する。
sgnifyは、slビデオで最先端の3dボディポーズと形状推定方法を上回る。
知覚的研究によると、SGNifyの3D再構成は従来の方法よりも理解しやすく自然であり、ソースビデオと同等である。
コードとデータは $\href{http://sgnify.is.tue.mpg.de}{\text{sgnify.is.tue.mpg.de}}$ で入手できる。
関連論文リスト
- DEGAS: Detailed Expressions on Full-Body Gaussian Avatars [13.683836322899953]
顔表情の豊かなフルボディアバターに対する3次元ガウススティング(3DGS)に基づくモデリング手法であるDEGASを提案する。
本稿では,2次元の顔と3次元のアバターのギャップを埋めて,2次元の肖像画にのみ訓練された潜在空間を採用することを提案する。
論文 参考訳(メタデータ) (2024-08-20T06:52:03Z) - Expressive Whole-Body 3D Gaussian Avatar [34.3179424934446]
モノクローナルビデオから学習した,表現力のある全身3DアバターであるExAvatarについて紹介する。
主な課題は,1)表情の多様性に限界があり,映像中のポーズ,2)3DスキャンやRGBD画像などの3D観察の欠如である。
論文 参考訳(メタデータ) (2024-07-31T15:29:13Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。