論文の概要: 3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands
- arxiv url: http://arxiv.org/abs/2409.01901v1
- Date: Tue, 3 Sep 2024 13:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:23:22.079210
- Title: 3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands
- Title(参考訳): 3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands
- Authors: Oline Ranum, Gomer Otterspeer, Jari I. Andersen, Robert G. Belleman, Floris Roelofsen,
- Abstract要約: 本稿では,手話を3Dでキャプチャするための効率的な手法を提案し,その3D-LEXデータセットを導入し,音韻特性の半自動アノテーション法について詳述する。
提案手法は,高解像度3次元ポーズ,3次元ハンドパップ,深度認識顔貌を含む3つのモーションキャプチャー技術を統合した。
3D-LEXデータセットには、American Sign Languageから1000のサインと、オランダのSign Languageから1000のサインが含まれている。
- 参考スコア(独自算出の注目度): 1.8641315013048299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present an efficient approach for capturing sign language in 3D, introduce the 3D-LEX v1.0 dataset, and detail a method for semi-automatic annotation of phonetic properties. Our procedure integrates three motion capture techniques encompassing high-resolution 3D poses, 3D handshapes, and depth-aware facial features, and attains an average sampling rate of one sign every 10 seconds. This includes the time for presenting a sign example, performing and recording the sign, and archiving the capture. The 3D-LEX dataset includes 1,000 signs from American Sign Language and an additional 1,000 signs from the Sign Language of the Netherlands. We showcase the dataset utility by presenting a simple method for generating handshape annotations directly from 3D-LEX. We produce handshape labels for 1,000 signs from American Sign Language and evaluate the labels in a sign recognition task. The labels enhance gloss recognition accuracy by 5% over using no handshape annotations, and by 1% over expert annotations. Our motion capture data supports in-depth analysis of sign features and facilitates the generation of 2D projections from any viewpoint. The 3D-LEX collection has been aligned with existing sign language benchmarks and linguistic resources, to support studies in 3D-aware sign language processing.
- Abstract(参考訳): 本研究では,手話を3Dで捉えるための効率的な手法を提案するとともに,3D-LEX v1.0データセットを導入し,音韻特性の半自動アノテーション法について詳述する。
提案手法は,高解像度3次元ポーズ,3次元ハンドパップ,深度認識顔貌を含む3つのモーションキャプチャ技術を統合し,平均サンプリングレートを10秒毎に達成する。
これには、サインの例を示し、サインを実行し、記録し、キャプチャをアーカイブする時間が含まれる。
3D-LEXデータセットには、American Sign Languageから1000のサインと、オランダのSign Languageから1000のサインが含まれている。
本稿では,3D-LEXから手形アノテーションを直接生成する簡単な方法を提案する。
我々は、アメリカンサイン言語から1000の記号に対して手形ラベルを作成し、そのラベルを手形認識タスクで評価する。
ラベルは手形アノテーションを使わずに光沢認識精度を5%、専門家アノテーションを1%向上させる。
我々のモーションキャプチャーデータは、手話の特徴の詳細な分析をサポートし、任意の視点から2次元投影を生成するのに役立つ。
3D-LEXコレクションは、3D対応手話処理の研究を支援するため、既存の手話ベンチマークや言語資源と整合している。
関連論文リスト
- AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software [0.0]
データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。
AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
論文 参考訳(メタデータ) (2024-11-19T21:15:47Z) - SignAvatar: Sign Language 3D Motion Reconstruction and Generation [10.342253593687781]
SignAvatarは、単語レベルの手話の再構築と生成が可能なフレームワークである。
身体,手,顔の3次元関節回転データからなるASL3DWordデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-05-13T17:48:22Z) - A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。
本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Scalable 3D Captioning with Pretrained Models [63.16604472745202]
Cap3Dは、3Dオブジェクトのための記述テキストを生成するための自動アプローチである。
我々は最近導入された大規模3DデータセットにCap3Dを適用した。
同じデータセットから41kの人的アノテーションを用いて評価を行ったところ、Cap3Dは品質、コスト、スピードの点で人間の記述を超越していることがわかった。
論文 参考訳(メタデータ) (2023-06-12T17:59:03Z) - Reconstructing Signing Avatars From Video Using Linguistic Priors [54.5282429129769]
手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。
孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。
SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
論文 参考訳(メタデータ) (2023-04-20T17:29:50Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。