論文の概要: SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and
Benchmark
- arxiv url: http://arxiv.org/abs/2310.20436v1
- Date: Tue, 31 Oct 2023 13:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:08:56.684909
- Title: SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and
Benchmark
- Title(参考訳): signavatars:大規模3d手話総合運動データセットとベンチマーク
- Authors: Zhengdi Yu, Shaoli Huang, Yongkang Cheng, Tolga Birdal
- Abstract要約: 本稿では,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを紹介する。
SignAvatarsデータセットは153の署名者から7万本のビデオで構成され、合計8.34万フレームである。
メッシュや生体力学的に有意な身体・手・顔のポーズを含む3次元の全体的アノテーションを得るため,自動的なアノテーションパイプラインを導入する。
- 参考スコア(独自算出の注目度): 21.972716680976646
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present SignAvatars, the first large-scale multi-prompt 3D
sign language (SL) motion dataset designed to bridge the communication gap for
hearing-impaired individuals. While there has been an exponentially growing
number of research regarding digital communication, the majority of existing
communication technologies primarily cater to spoken or written languages,
instead of SL, the essential communication method for hearing-impaired
communities. Existing SL datasets, dictionaries, and sign language production
(SLP) methods are typically limited to 2D as the annotating 3D models and
avatars for SL is usually an entirely manual and labor-intensive process
conducted by SL experts, often resulting in unnatural avatars. In response to
these challenges, we compile and curate the SignAvatars dataset, which
comprises 70,000 videos from 153 signers, totaling 8.34 million frames,
covering both isolated signs and continuous, co-articulated signs, with
multiple prompts including HamNoSys, spoken language, and words. To yield 3D
holistic annotations, including meshes and biomechanically-valid poses of body,
hands, and face, as well as 2D and 3D keypoints, we introduce an automated
annotation pipeline operating on our large corpus of SL videos. SignAvatars
facilitates various tasks such as 3D sign language recognition (SLR) and the
novel 3D SL production (SLP) from diverse inputs like text scripts, individual
words, and HamNoSys notation. Hence, to evaluate the potential of SignAvatars,
we further propose a unified benchmark of 3D SL holistic motion production. We
believe that this work is a significant step forward towards bringing the
digital world to the hearing-impaired communities. Our project page is at
https://signavatars.github.io/
- Abstract(参考訳): 本稿では,聴覚障害者のコミュニケーションギャップを埋めるために設計された,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを提案する。
デジタルコミュニケーションに関する研究は急速に増えているが、既存のコミュニケーション技術の大部分は、聴覚障害のあるコミュニティにとって不可欠なコミュニケーション手法であるSLではなく、主に話し言葉や書き言葉に向いている。
既存のslデータセット、辞書、手話生成(slp)法は、通常は2dに制限されており、slの注釈付き3dモデルとアバターは通常、slの専門家が行う完全に手動で労働集約的なプロセスであり、しばしば不自然なアバターになる。
これらの課題に対応するために、我々はSignAvatarsデータセットをコンパイルし、キュレートする。これは153の署名者から7万本のビデオで構成され、合計8.34万のフレームで構成され、孤立した記号と連続した協調記号の両方をカバーし、HamNoSys、音声言語、単語を含む複数のプロンプトを含む。
メッシュや人体,手,顔のバイオメカニカルなポーズ,および2Dおよび3Dキーポイントを含む3次元の全体的アノテーションを得るために,当社の大規模なSLビデオコーパスで動作する自動アノテーションパイプラインを導入する。
signavatarsはslr(3d sign language recognition)やslp(new 3d sl production)といった様々なタスクをテキストスクリプト、個々の単語、ハムノーシス表記などの様々な入力から行う。
そこで,シグナバタールのポテンシャルを評価するために,さらに3次元sl全体運動生成の統一ベンチマークを提案する。
この研究は、聴覚障害者コミュニティにデジタル世界をもたらすための大きな一歩だと考えています。
私たちのプロジェクトページはhttps://signavatars.github.io/です。
関連論文リスト
- 3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands [1.8641315013048299]
本稿では,手話を3Dでキャプチャするための効率的な手法を提案し,その3D-LEXデータセットを導入し,音韻特性の半自動アノテーション法について詳述する。
提案手法は,高解像度3次元ポーズ,3次元ハンドパップ,深度認識顔貌を含む3つのモーションキャプチャー技術を統合した。
3D-LEXデータセットには、American Sign Languageから1000のサインと、オランダのSign Languageから1000のサインが含まれている。
論文 参考訳(メタデータ) (2024-09-03T13:44:56Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。
本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Reconstructing Signing Avatars From Video Using Linguistic Priors [54.5282429129769]
手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。
孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。
SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
論文 参考訳(メタデータ) (2023-04-20T17:29:50Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。