論文の概要: Improving Sign Recognition with Phonology
- arxiv url: http://arxiv.org/abs/2302.05759v1
- Date: Sat, 11 Feb 2023 18:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:42:54.531494
- Title: Improving Sign Recognition with Phonology
- Title(参考訳): 音韻による手話認識の改善
- Authors: Lee Kezar, Jesse Thomason, Zed Sevcikova Sehyr
- Abstract要約: 我々は、アメリカ手話音声学の研究から得られた知見を用いて、手話認識のためのモデルを訓練する。
我々は、サインだけでなく、その音韻特性を予測するために、シングルサインを生成するシグナーのポーズ推定を行うISLRモデルを訓練する。
これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させる。
- 参考スコア(独自算出の注目度): 8.27285154257448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We use insights from research on American Sign Language (ASL) phonology to
train models for isolated sign language recognition (ISLR), a step towards
automatic sign language understanding. Our key insight is to explicitly
recognize the role of phonology in sign production to achieve more accurate
ISLR than existing work which does not consider sign language phonology. We
train ISLR models that take in pose estimations of a signer producing a single
sign to predict not only the sign but additionally its phonological
characteristics, such as the handshape. These auxiliary predictions lead to a
nearly 9% absolute gain in sign recognition accuracy on the WLASL benchmark,
with consistent improvements in ISLR regardless of the underlying prediction
model architecture. This work has the potential to accelerate linguistic
research in the domain of signed languages and reduce communication barriers
between deaf and hearing people.
- Abstract(参考訳): 我々は、ASL(American Sign Language)音声学の研究から得られた知見を用いて、独立手話認識(ISLR)のためのモデルを訓練する。
我々の重要な洞察は、手話音声学を考慮しない既存の作品よりも正確なISLRを実現するために、手話生成における音韻学の役割を明確に認識することである。
我々は,手形などの音韻特性だけでなく,手形などの音韻特性も予測するために,手形を生成するシグナーのポーズ推定を行うISLRモデルを訓練する。
これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させ、基礎となる予測モデルアーキテクチャに関係なくISLRを一貫して改善した。
この研究は、署名言語領域における言語研究を加速し、聴覚障害者と聴覚障害者のコミュニケーション障壁を減らす可能性がある。
関連論文リスト
- Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。
これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - The Sem-Lex Benchmark: Modeling ASL Signs and Their Phonemes [6.0179345110920455]
本稿では,ASL(American Sign Language)モデリングのための新しいリソースであるSem-Lex Benchmarkを紹介する。
Benchmarkは、現在最大規模で、聴覚障害のASL署名者による84万本以上の単独のサイン制作のビデオで構成されており、インフォームド・コンセントが与えられ、補償を受けた。
ASL-LEXにおける言語情報を活用する一連の実験を行い、Sem-Lex Benchmark(ISR)の実用性と公正性を評価した。
論文 参考訳(メタデータ) (2023-09-30T00:25:43Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。
本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。
また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文 参考訳(メタデータ) (2022-01-05T13:45:09Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。