論文の概要: A two-way translation system of Chinese sign language based on computer
vision
- arxiv url: http://arxiv.org/abs/2306.02144v2
- Date: Sat, 17 Jun 2023 18:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 01:23:47.530669
- Title: A two-way translation system of Chinese sign language based on computer
vision
- Title(参考訳): コンピュータビジョンに基づく中国語手話の双方向翻訳システム
- Authors: Shengzhuo Wei and Yan Lan
- Abstract要約: TSMモジュールは、中国の大規模な連続手話データセットのための軽量ニューラルネットワークモデルに追加される。
また,Bert-Base- Chineseモデルの改良により,中国語の文を単語に分割し,自然語順を規則手話順にマッピングする。
最後に,対応する単語ビデオを用いて文ビデオを生成し,テキスト-署名言語翻訳の機能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the main means of communication for deaf people, sign language has a
special grammatical order, so it is meaningful and valuable to develop a
real-time translation system for sign language. In the research process, we
added a TSM module to the lightweight neural network model for the large
Chinese continuous sign language dataset . It effectively improves the network
performance with high accuracy and fast recognition speed. At the same time, we
improve the Bert-Base-Chinese model to divide Chinese sentences into words and
mapping the natural word order to the statute sign language order, and finally
use the corresponding word videos in the isolated sign language dataset to
generate the sentence video, so as to achieve the function of text-to-sign
language translation. In the last of our research we built a system with sign
language recognition and translation functions, and conducted performance tests
on the complete dataset. The sign language video recognition accuracy reached
about 99.3% with a time of about 0.05 seconds, and the sign language generation
video time was about 1.3 seconds. The sign language system has good performance
performance and is feasible.
- Abstract(参考訳): 聴覚障害者のコミュニケーションの主要な手段として、手話は特別な文法的順序を持ち、手話のリアルタイム翻訳システムの開発には意義と価値がある。
研究プロセスでは、中国の大規模連続手話データセットのための軽量ニューラルネットワークモデルにTSMモジュールを追加しました。
ネットワーク性能を高精度かつ高速な認識速度で効果的に向上させる。
同時に、漢文を単語に分割し、自然語順を法定手話順にマッピングするbert-base- chineseモデルを改善し、最後に対応する単語ビデオを分離手話データセットで使用して文ビデオを生成することにより、テキスト対手話翻訳の機能を実現する。
最後の研究では、手話認識と翻訳機能を備えたシステムを構築し、完全なデータセットのパフォーマンステストを実施しました。
手話ビデオ認識精度は約99.3%に達し、約0.05秒、手話生成ビデオ時間は約1.3秒であった。
手話システムの性能は良好であり、実現可能である。
関連論文リスト
- A Simple Baseline for Spoken Language to Sign Language Translation with
3D Avatars [52.56042673495026]
Spoken2Signは、音声言語を手話に変換するシステムである。
Spoken2Signタスクを3Dサインの出力フォーマットで最初に提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - Cross-modality Data Augmentation for End-to-End Sign Language
Translation [71.31075396354406]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
XmDAは、クロスモダリティ混合とクロスモダリティ知識蒸留という2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。