論文の概要: A two-way translation system of Chinese sign language based on computer
vision
- arxiv url: http://arxiv.org/abs/2306.02144v1
- Date: Sat, 3 Jun 2023 16:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:55:28.403534
- Title: A two-way translation system of Chinese sign language based on computer
vision
- Title(参考訳): コンピュータビジョンに基づく中国語手話の双方向翻訳システム
- Authors: Shengzhuo Wei and Yan Lan
- Abstract要約: TSMモジュールは、中国の大規模な連続手話データセットのための軽量ニューラルネットワークモデルに追加される。
また,Bert-Base- Chineseモデルの改良により,中国語の文を単語に分割し,自然語順を規則手話順にマッピングする。
最後に,対応する単語ビデオを用いて文ビデオを生成し,テキスト-署名言語翻訳の機能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the main means of communication for deaf people, sign language has a
special grammatical order, so it is meaningful and valuable to develop a
real-time translation system for sign language. In the research process, we
added a TSM module to the lightweight neural network model for the large
Chinese continuous sign language dataset . It effectively improves the network
performance with high accuracy and fast recognition speed. At the same time, we
improve the Bert-Base-Chinese model to divide Chinese sentences into words and
mapping the natural word order to the statute sign language order, and finally
use the corresponding word videos in the isolated sign language dataset to
generate the sentence video, so as to achieve the function of text-to-sign
language translation. In the last of our research we built a system with sign
language recognition and translation functions, and conducted performance tests
on the complete dataset. The sign language video recognition accuracy reached
about 99.3% with a time of about 0.05 seconds, and the sign language generation
video time was about 1.3 seconds. The sign language system has good performance
performance and is feasible.
- Abstract(参考訳): 聴覚障害者のコミュニケーションの主要な手段として、手話は特別な文法的順序を持ち、手話のリアルタイム翻訳システムの開発には意義と価値がある。
研究プロセスでは、中国の大規模連続手話データセットのための軽量ニューラルネットワークモデルにTSMモジュールを追加しました。
ネットワーク性能を高精度かつ高速な認識速度で効果的に向上させる。
同時に、漢文を単語に分割し、自然語順を法定手話順にマッピングするbert-base- chineseモデルを改善し、最後に対応する単語ビデオを分離手話データセットで使用して文ビデオを生成することにより、テキスト対手話翻訳の機能を実現する。
最後の研究では、手話認識と翻訳機能を備えたシステムを構築し、完全なデータセットのパフォーマンステストを実施しました。
手話ビデオ認識精度は約99.3%に達し、約0.05秒、手話生成ビデオ時間は約1.3秒であった。
手話システムの性能は良好であり、実現可能である。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition [0.0]
本研究の目的は,イラン手話語をトランスフォーマーなどの最新のディープラーニングツールの助けを借りて認識することである。
使用されるデータセットには、大学などの学術環境で頻繁に使用されるイラン手話101語が含まれている。
論文 参考訳(メタデータ) (2024-06-27T06:54:25Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。