Fugu-MT 論文翻訳(概要): Improving Sign Recognition with Phonology

論文の概要: Improving Sign Recognition with Phonology

arxiv url: http://arxiv.org/abs/2302.05759v1
Date: Sat, 11 Feb 2023 18:51:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 18:42:54.531494
Title: Improving Sign Recognition with Phonology
Title（参考訳）: 音韻による手話認識の改善
Authors: Lee Kezar, Jesse Thomason, Zed Sevcikova Sehyr
Abstract要約: 我々は、アメリカ手話音声学の研究から得られた知見を用いて、手話認識のためのモデルを訓練する。我々は、サインだけでなく、その音韻特性を予測するために、シングルサインを生成するシグナーのポーズ推定を行うISLRモデルを訓練する。これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させる。
参考スコア（独自算出の注目度）: 8.27285154257448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We use insights from research on American Sign Language (ASL) phonology to train models for isolated sign language recognition (ISLR), a step towards automatic sign language understanding. Our key insight is to explicitly recognize the role of phonology in sign production to achieve more accurate ISLR than existing work which does not consider sign language phonology. We train ISLR models that take in pose estimations of a signer producing a single sign to predict not only the sign but additionally its phonological characteristics, such as the handshape. These auxiliary predictions lead to a nearly 9% absolute gain in sign recognition accuracy on the WLASL benchmark, with consistent improvements in ISLR regardless of the underlying prediction model architecture. This work has the potential to accelerate linguistic research in the domain of signed languages and reduce communication barriers between deaf and hearing people.
Abstract（参考訳）: 我々は、ASL(American Sign Language)音声学の研究から得られた知見を用いて、独立手話認識(ISLR)のためのモデルを訓練する。我々の重要な洞察は、手話音声学を考慮しない既存の作品よりも正確なISLRを実現するために、手話生成における音韻学の役割を明確に認識することである。我々は,手形などの音韻特性だけでなく,手形などの音韻特性も予測するために,手形を生成するシグナーのポーズ推定を行うISLRモデルを訓練する。これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させ、基礎となる予測モデルアーキテクチャに関係なくISLRを一貫して改善した。この研究は、署名言語領域における言語研究を加速し、聴覚障害者と聴覚障害者のコミュニケーション障壁を減らす可能性がある。

関連論文リスト

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies [6.403291706982091]
独立した手話認識は、スケーラブルな言語技術にとって不可欠である。言語をまたいで一般化し,語彙を進化させるワンショット学習手法を提案する。我々は、異なる言語から10,235のユニークな記号を含む大きな辞書上で50.8%のワンショットMRRを含む最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-27T15:07:51Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。 SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。 SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
The Sem-Lex Benchmark: Modeling ASL Signs and Their Phonemes [6.0179345110920455]
本稿では,ASL(American Sign Language)モデリングのための新しいリソースであるSem-Lex Benchmarkを紹介する。 Benchmarkは、現在最大規模で、聴覚障害のASL署名者による84万本以上の単独のサイン制作のビデオで構成されており、インフォームド・コンセントが与えられ、補償を受けた。 ASL-LEXにおける言語情報を活用する一連の実験を行い、Sem-Lex Benchmark(ISR)の実用性と公正性を評価した。
論文参考訳（メタデータ） (2023-09-30T00:25:43Z)
Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文参考訳（メタデータ） (2023-08-21T15:58:47Z)
On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文参考訳（メタデータ） (2023-03-19T22:15:05Z)
Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文参考訳（メタデータ） (2022-05-24T13:40:45Z)
Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文参考訳（メタデータ） (2022-03-29T08:51:38Z)
WLASL-LEX: a Dataset for Recognising Phonological Properties in American Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文参考訳（メタデータ） (2022-03-11T17:21:24Z)
All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文参考訳（メタデータ） (2022-01-05T13:45:09Z)
Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文参考訳（メタデータ） (2021-06-11T20:15:21Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。