論文の概要: Reconstructing Signing Avatars From Video Using Linguistic Priors
- arxiv url: http://arxiv.org/abs/2304.10482v1
- Date: Thu, 20 Apr 2023 17:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:18:40.882863
- Title: Reconstructing Signing Avatars From Video Using Linguistic Priors
- Title(参考訳): 言語前置詞を用いたビデオからの署名アバターの再構成
- Authors: Maria-Paola Forte and Peter Kulits and Chun-Hao Huang and Vasileios
Choutas and Dimitrios Tzionas and Katherine J. Kuchenbecker and Michael J.
Black
- Abstract要約: 手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。
孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。
SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
- 参考スコア(独自算出の注目度): 54.5282429129769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language (SL) is the primary method of communication for the 70 million
Deaf people around the world. Video dictionaries of isolated signs are a core
SL learning tool. Replacing these with 3D avatars can aid learning and enable
AR/VR applications, improving access to technology and online media. However,
little work has attempted to estimate expressive 3D avatars from SL video;
occlusion, noise, and motion blur make this task difficult. We address this by
introducing novel linguistic priors that are universally applicable to SL and
provide constraints on 3D hand pose that help resolve ambiguities within
isolated signs. Our method, SGNify, captures fine-grained hand pose, facial
expression, and body movement fully automatically from in-the-wild monocular SL
videos. We evaluate SGNify quantitatively by using a commercial motion-capture
system to compute 3D avatars synchronized with monocular video. SGNify
outperforms state-of-the-art 3D body-pose- and shape-estimation methods on SL
videos. A perceptual study shows that SGNify's 3D reconstructions are
significantly more comprehensible and natural than those of previous methods
and are on par with the source videos. Code and data are available at
$\href{http://sgnify.is.tue.mpg.de}{\text{sgnify.is.tue.mpg.de}}$.
- Abstract(参考訳): 手話(SL)は、世界中の7000万人の聴覚障害者のコミュニケーションの主要な方法である。
孤立標識のビデオ辞書は中核的なSL学習ツールである。
これらを3Dアバターで置き換えることで、学習とAR/VRアプリケーションの実現を支援し、技術やオンラインメディアへのアクセスを改善することができる。
しかし、SLビデオから表現力のある3Dアバターを推定する試みはほとんど行われていない。
SLに普遍的に適用可能な新しい言語的先行概念を導入し、孤立した記号のあいまいさを解決する3Dハンドポーズに制約を与える。
提案手法sgnifyは,手指の微細なポーズ,表情,体の動きを,野生単眼slビデオから完全に自動で計測する。
商用モーションキャプチャシステムを用いて,モノクロ映像と同期した3Dアバターを定量的に評価する。
sgnifyは、slビデオで最先端の3dボディポーズと形状推定方法を上回る。
知覚的研究によると、SGNifyの3D再構成は従来の方法よりも理解しやすく自然であり、ソースビデオと同等である。
コードとデータは $\href{http://sgnify.is.tue.mpg.de}{\text{sgnify.is.tue.mpg.de}}$ で入手できる。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production
from text [54.048218171283885]
手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and
Benchmark [21.972716680976646]
本稿では,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを紹介する。
SignAvatarsデータセットは153の署名者から7万本のビデオで構成され、合計8.34万フレームである。
メッシュや生体力学的に有意な身体・手・顔のポーズを含む3次元の全体的アノテーションを得るため,自動的なアノテーションパイプラインを導入する。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。