論文の概要: SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2310.20436v3
- Date: Tue, 2 Jul 2024 15:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 08:09:56.692887
- Title: SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark
- Title(参考訳): SignAvatars: 大規模3D手話のホロスティックモーションデータセットとベンチマーク
- Authors: Zhengdi Yu, Shaoli Huang, Yongkang Cheng, Tolga Birdal,
- Abstract要約: SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
- 参考スコア(独自算出の注目度): 20.11364909443987
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present SignAvatars, the first large-scale, multi-prompt 3D sign language (SL) motion dataset designed to bridge the communication gap for Deaf and hard-of-hearing individuals. While there has been an exponentially growing number of research regarding digital communication, the majority of existing communication technologies primarily cater to spoken or written languages, instead of SL, the essential communication method for Deaf and hard-of-hearing communities. Existing SL datasets, dictionaries, and sign language production (SLP) methods are typically limited to 2D as annotating 3D models and avatars for SL is usually an entirely manual and labor-intensive process conducted by SL experts, often resulting in unnatural avatars. In response to these challenges, we compile and curate the SignAvatars dataset, which comprises 70,000 videos from 153 signers, totaling 8.34 million frames, covering both isolated signs and continuous, co-articulated signs, with multiple prompts including HamNoSys, spoken language, and words. To yield 3D holistic annotations, including meshes and biomechanically-valid poses of body, hands, and face, as well as 2D and 3D keypoints, we introduce an automated annotation pipeline operating on our large corpus of SL videos. SignAvatars facilitates various tasks such as 3D sign language recognition (SLR) and the novel 3D SL production (SLP) from diverse inputs like text scripts, individual words, and HamNoSys notation. Hence, to evaluate the potential of SignAvatars, we further propose a unified benchmark of 3D SL holistic motion production. We believe that this work is a significant step forward towards bringing the digital world to the Deaf and hard-of-hearing communities as well as people interacting with them.
- Abstract(参考訳): 本稿では,難聴者や難聴者のコミュニケーションギャップを埋めるために設計された,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを紹介する。
デジタルコミュニケーションに関する研究は急速に増えているが、既存のコミュニケーション技術の大部分は、聴覚障害や難聴者コミュニティにとって欠かせないコミュニケーション手法であるSLではなく、主に話し言葉や書き言葉に向いている。
既存のSLデータセット、辞書、手話生成(SLP)メソッドは通常、注釈付けされた3Dモデルとして2Dに制限され、SLのアバターは通常、SLの専門家が完全に手作業で行う労働集約的なプロセスであり、しばしば不自然なアバターをもたらす。
これらの課題に対応するために、我々はSignAvatarsデータセットをコンパイルし、キュレートする。これは153の署名者から7万のビデオで構成され、合計8.34万のフレームで構成され、孤立した記号と連続した協調記号の両方をカバーし、HamNoSys、音声言語、単語を含む複数のプロンプトを含む。
メッシュや人体,手,顔のバイオメカニカルなポーズ,および2Dおよび3Dキーポイントを含む3次元の全体的アノテーションを得るために,当社の大規模なSLビデオコーパスで動作する自動アノテーションパイプラインを導入する。
SignAvatarsは3D手話認識(SLR)や,テキストスクリプトや個々の単語,HamNoSys表記など,さまざまな入力から3D SL生成(SLP)を実現する。
したがって、SignAvatarsの可能性を評価するために、さらに3次元SL総体運動生成の統一的なベンチマークを提案する。
この取り組みは、デジタルの世界を難聴者や難聴者コミュニティ、そして彼らと対話する人々に持ち込むための大きな一歩だと私たちは信じています。
関連論文リスト
- 3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands [1.8641315013048299]
本稿では,手話を3Dでキャプチャするための効率的な手法を提案し,その3D-LEXデータセットを導入し,音韻特性の半自動アノテーション法について詳述する。
提案手法は,高解像度3次元ポーズ,3次元ハンドパップ,深度認識顔貌を含む3つのモーションキャプチャー技術を統合した。
3D-LEXデータセットには、American Sign Languageから1000のサインと、オランダのSign Languageから1000のサインが含まれている。
論文 参考訳(メタデータ) (2024-09-03T13:44:56Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。
本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Reconstructing Signing Avatars From Video Using Linguistic Priors [54.5282429129769]
手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。
孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。
SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
論文 参考訳(メタデータ) (2023-04-20T17:29:50Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。