論文の概要: Speak2Sign3D: A Multi-modal Pipeline for English Speech to American Sign Language Animation
- arxiv url: http://arxiv.org/abs/2507.06530v1
- Date: Wed, 09 Jul 2025 04:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.464077
- Title: Speak2Sign3D: A Multi-modal Pipeline for English Speech to American Sign Language Animation
- Title(参考訳): Speak2Sign3D: アメリカの手話アニメーションに対する英語音声のためのマルチモーダルパイプライン
- Authors: Kazi Mahathir Rahman, Naveed Imtiaz Nafis, Md. Farhan Sadik, Mohammad Al Rafi, Mehedi Hasan Shahed,
- Abstract要約: 我々は、英語の音声をスムーズでリアルな3D手話アニメーションに変換する完全なパイプラインを導入する。
私たちのシステムはWhisperから始まり、話し言葉をテキストに翻訳します。
そして、MarianMT機械翻訳モデルを用いて、そのテキストをAmerican Sign Language(ASL)用語に翻訳する。
我々はSign3D-WLASLで学習した3Dキーポイントベースのモーションシステムを用いて,翻訳した光沢をアニメーション化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Helping deaf and hard-of-hearing people communicate more easily is the main goal of Automatic Sign Language Translation. Although most past research has focused on turning sign language into text, doing the reverse, turning spoken English into sign language animations, has been largely overlooked. That's because it involves multiple steps, such as understanding speech, translating it into sign-friendly grammar, and generating natural human motion. In this work, we introduce a complete pipeline that converts English speech into smooth, realistic 3D sign language animations. Our system starts with Whisper to translate spoken English into text. Then, we use a MarianMT machine translation model to translate that text into American Sign Language (ASL) gloss, a simplified version of sign language that captures meaning without grammar. This model performs well, reaching BLEU scores of 0.7714 and 0.8923. To make the gloss translation more accurate, we also use word embeddings such as Word2Vec and FastText to understand word meanings. Finally, we animate the translated gloss using a 3D keypoint-based motion system trained on Sign3D-WLASL, a dataset we created by extracting body, hand, and face key points from real ASL videos in the WLASL dataset. To support the gloss translation stage, we also built a new dataset called BookGlossCorpus-CG, which turns everyday English sentences from the BookCorpus dataset into ASL gloss using grammar rules. Our system stitches everything together by smoothly interpolating between signs to create natural, continuous animations. Unlike previous works like How2Sign and Phoenix-2014T that focus on recognition or use only one type of data, our pipeline brings together audio, text, and motion in a single framework that goes all the way from spoken English to lifelike 3D sign language animation.
- Abstract(参考訳): 難聴者や難聴者のコミュニケーションを容易にすることが、自動手話翻訳の主な目標です。
これまでのほとんどの研究は手話のテキスト化に焦点を合わせてきたが、その逆で話される英語を手話のアニメーションに変えることは、ほとんど見過ごされてしまった。
それは、音声の理解、手話にやさしい文法への翻訳、自然な人間の動きの生成など、複数のステップが伴うからです。
本研究では,英語の音声をスムーズでリアルな3D手話アニメーションに変換する完全パイプラインを提案する。
私たちのシステムはWhisperから始まり、話し言葉をテキストに翻訳します。
次に、MarianMT機械翻訳モデルを用いて、そのテキストをASL(American Sign Language)に翻訳する。
このモデルはよく機能し、BLEUスコアは0.7714と0.8923に達する。
用語翻訳をより正確にするために、Word2VecやFastTextといった単語埋め込みを用いて単語の意味を理解する。
最後に,WLASLデータセット内の実ASLビデオから,身体,手,顔のキーポイントを抽出して作成したデータセットであるSign3D-WLASLに基づいて学習した3Dキーポイントベースのモーションシステムを用いて,翻訳された光沢をアニメーション化する。
グロス翻訳の段階をサポートするため、我々はBookGlossCorpus-CGという新しいデータセットを構築した。
私たちのシステムは、自然で連続的なアニメーションを作成するために、標識間のスムーズな補間によって、すべてを縫い合わせる。
How2SignやPhoenix-2014Tのように、音声認識や1種類のデータのみにフォーカスする従来の作品とは異なり、私たちのパイプラインでは、音声、テキスト、モーションを単一のフレームワークに統合しています。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。
本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。