論文の概要: The Sem-Lex Benchmark: Modeling ASL Signs and Their Phonemes
- arxiv url: http://arxiv.org/abs/2310.00196v1
- Date: Sat, 30 Sep 2023 00:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:02:16.634894
- Title: The Sem-Lex Benchmark: Modeling ASL Signs and Their Phonemes
- Title(参考訳): Sem-Lexベンチマーク: ASL符号のモデル化とその特徴
- Authors: Lee Kezar, Elana Pontecorvo, Adele Daniels, Connor Baer, Ruth Ferster,
Lauren Berger, Jesse Thomason, Zed Sevcikova Sehyr, Naomi Caselli
- Abstract要約: 本稿では,ASL(American Sign Language)モデリングのための新しいリソースであるSem-Lex Benchmarkを紹介する。
Benchmarkは、現在最大規模で、聴覚障害のASL署名者による84万本以上の単独のサイン制作のビデオで構成されており、インフォームド・コンセントが与えられ、補償を受けた。
ASL-LEXにおける言語情報を活用する一連の実験を行い、Sem-Lex Benchmark(ISR)の実用性と公正性を評価した。
- 参考スコア(独自算出の注目度): 6.0179345110920455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language recognition and translation technologies have the potential to
increase access and inclusion of deaf signing communities, but research
progress is bottlenecked by a lack of representative data. We introduce a new
resource for American Sign Language (ASL) modeling, the Sem-Lex Benchmark. The
Benchmark is the current largest of its kind, consisting of over 84k videos of
isolated sign productions from deaf ASL signers who gave informed consent and
received compensation. Human experts aligned these videos with other sign
language resources including ASL-LEX, SignBank, and ASL Citizen, enabling
useful expansions for sign and phonological feature recognition. We present a
suite of experiments which make use of the linguistic information in ASL-LEX,
evaluating the practicality and fairness of the Sem-Lex Benchmark for isolated
sign recognition (ISR). We use an SL-GCN model to show that the phonological
features are recognizable with 85% accuracy, and that they are effective as an
auxiliary target to ISR. Learning to recognize phonological features alongside
gloss results in a 6% improvement for few-shot ISR accuracy and a 2%
improvement for ISR accuracy overall. Instructions for downloading the data can
be found at https://github.com/leekezar/SemLex.
- Abstract(参考訳): 手話認識と翻訳技術は聴覚障害者の署名コミュニティへのアクセスと包含を増加させる可能性があるが、研究の進展は代表データの欠如によってボトルネックとなっている。
本稿では,ASLモデリングのための新しいリソースであるSem-Lex Benchmarkを紹介する。
Benchmarkは、現在最大規模で、聴覚障害のASL署名者による84万本以上の独立したサイン制作のビデオで構成されている。
人間の専門家はこれらのビデオと、ASL-LEX、SignBank、ASL Citizenといった他の手話リソースを連携させ、手話や音韻的特徴認識に有用な拡張を可能にした。
本稿では,asl-lexにおける言語情報を活用し,sem-lex benchmark for isolated sign recognition (isr)の実用性と公平性を評価する実験スイートを提案する。
SL-GCNモデルを用いて,音韻的特徴が85%の精度で認識でき,ISRの補助的標的として有効であることを示す。
音韻的特徴と光沢を同時に認識する学習は、ショットISRの精度が6%向上し、ISRの精度が2%向上した。
データのダウンロード手順はhttps://github.com/leekezar/SemLex.comで確認できる。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - The American Sign Language Knowledge Graph: Infusing ASL Models with Linguistic Knowledge [6.481946043182915]
専門的な言語知識の12つの情報源からコンパイルされたASLKG(American Sign Language Knowledge Graph)を紹介する。
我々は、ASLKGを用いて、3つのASL理解タスクのニューロシンボリックモデルをトレーニングし、ISRで91%のアキュラシーを達成し、14%の未確認のサインのセマンティックな特徴を予測し、36%のYoutube-ASLビデオのトピックを分類した。
論文 参考訳(メタデータ) (2024-11-06T00:16:16Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Improving Sign Recognition with Phonology [8.27285154257448]
我々は、アメリカ手話音声学の研究から得られた知見を用いて、手話認識のためのモデルを訓練する。
我々は、サインだけでなく、その音韻特性を予測するために、シングルサインを生成するシグナーのポーズ推定を行うISLRモデルを訓練する。
これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させる。
論文 参考訳(メタデータ) (2023-02-11T18:51:23Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。