論文の概要: Exploring Strategies for Modeling Sign Language Phonology
- arxiv url: http://arxiv.org/abs/2310.00195v1
- Date: Sat, 30 Sep 2023 00:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:01:55.596720
- Title: Exploring Strategies for Modeling Sign Language Phonology
- Title(参考訳): 手話音韻のモデル化戦略の検討
- Authors: Lee Kezar, Riley Carlin, Tejas Srinivasan, Zed Sehyr, Naomi Caselli,
Jesse Thomason
- Abstract要約: ASL-LEX 2.0に見られる16音素の「タイプ」を認識するために,グラフ畳み込みネットワークを学習する。
Sem-Lex Benchmarkの結果、カリキュラム学習はすべての音素タイプで平均87%の精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 8.062581823323827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Like speech, signs are composed of discrete, recombinable features called
phonemes. Prior work shows that models which can recognize phonemes are better
at sign recognition, motivating deeper exploration into strategies for modeling
sign language phonemes. In this work, we learn graph convolution networks to
recognize the sixteen phoneme "types" found in ASL-LEX 2.0. Specifically, we
explore how learning strategies like multi-task and curriculum learning can
leverage mutually useful information between phoneme types to facilitate better
modeling of sign language phonemes. Results on the Sem-Lex Benchmark show that
curriculum learning yields an average accuracy of 87% across all phoneme types,
outperforming fine-tuning and multi-task strategies for most phoneme types.
- Abstract(参考訳): 音声と同様に、記号は音素と呼ばれる離散的、再結合可能な特徴からなる。
先行研究では、音素を認識できるモデルは手話認識に優れており、手話音素のモデリング戦略への深い探求が動機となっている。
本研究では,ASL-LEX 2.0における16音素の「タイプ」を認識するために,グラフ畳み込みネットワークを学習する。
具体的には、マルチタスクやカリキュラム学習といった学習戦略が、音素タイプ間の相互に有用な情報を活用して、手話音素のモデリングを改善する方法について検討する。
Sem-Lex Benchmarkの結果、カリキュラム学習はすべての音素タイプで平均87%の精度を示し、ほとんどの音素タイプにおいて微調整とマルチタスクの戦略よりも優れていた。
関連論文リスト
- Small Language Models Like Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
我々は,Llamaアーキテクチャに基づく小型モデルは,標準構文および新しい語彙/音声のベンチマークにおいて,強力な言語性能が得られることを示す。
本研究は,言語習得と処理の計算研究に適する言語学的に妥当な言語モデルを作成するための,有望な方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - SmartPhone: Exploring Keyword Mnemonic with Auto-generated Verbal and
Visual Cues [2.8047215329139976]
本稿では,キーワード・メニーモニックのための言語・視覚的手がかりの自動生成のためのエンドツーエンドパイプラインを提案する。
言語と視覚を自動生成するエンド・ツー・エンドのパイプラインである我々のアプローチは、覚えやすいキューを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-05-11T20:58:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - LSTM Acoustic Models Learn to Align and Pronounce with Graphemes [22.453756228457017]
そこで本研究では,純粋にデータ駆動型で学習可能なグラファイムに基づく音声認識手法を提案する。
大規模なデータセットで学習すると,音素出力モデルとWERが競合することを示す。
論文 参考訳(メタデータ) (2020-08-13T21:38:36Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。