論文の概要: Speak2Sign3D: A Multi-modal Pipeline for English Speech to American Sign Language Animation
- arxiv url: http://arxiv.org/abs/2507.06530v1
- Date: Wed, 09 Jul 2025 04:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.464077
- Title: Speak2Sign3D: A Multi-modal Pipeline for English Speech to American Sign Language Animation
- Title(参考訳): Speak2Sign3D: アメリカの手話アニメーションに対する英語音声のためのマルチモーダルパイプライン
- Authors: Kazi Mahathir Rahman, Naveed Imtiaz Nafis, Md. Farhan Sadik, Mohammad Al Rafi, Mehedi Hasan Shahed,
- Abstract要約: 我々は、英語の音声をスムーズでリアルな3D手話アニメーションに変換する完全なパイプラインを導入する。
私たちのシステムはWhisperから始まり、話し言葉をテキストに翻訳します。
そして、MarianMT機械翻訳モデルを用いて、そのテキストをAmerican Sign Language(ASL)用語に翻訳する。
我々はSign3D-WLASLで学習した3Dキーポイントベースのモーションシステムを用いて,翻訳した光沢をアニメーション化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Helping deaf and hard-of-hearing people communicate more easily is the main goal of Automatic Sign Language Translation. Although most past research has focused on turning sign language into text, doing the reverse, turning spoken English into sign language animations, has been largely overlooked. That's because it involves multiple steps, such as understanding speech, translating it into sign-friendly grammar, and generating natural human motion. In this work, we introduce a complete pipeline that converts English speech into smooth, realistic 3D sign language animations. Our system starts with Whisper to translate spoken English into text. Then, we use a MarianMT machine translation model to translate that text into American Sign Language (ASL) gloss, a simplified version of sign language that captures meaning without grammar. This model performs well, reaching BLEU scores of 0.7714 and 0.8923. To make the gloss translation more accurate, we also use word embeddings such as Word2Vec and FastText to understand word meanings. Finally, we animate the translated gloss using a 3D keypoint-based motion system trained on Sign3D-WLASL, a dataset we created by extracting body, hand, and face key points from real ASL videos in the WLASL dataset. To support the gloss translation stage, we also built a new dataset called BookGlossCorpus-CG, which turns everyday English sentences from the BookCorpus dataset into ASL gloss using grammar rules. Our system stitches everything together by smoothly interpolating between signs to create natural, continuous animations. Unlike previous works like How2Sign and Phoenix-2014T that focus on recognition or use only one type of data, our pipeline brings together audio, text, and motion in a single framework that goes all the way from spoken English to lifelike 3D sign language animation.
- Abstract(参考訳): 難聴者や難聴者のコミュニケーションを容易にすることが、自動手話翻訳の主な目標です。
これまでのほとんどの研究は手話のテキスト化に焦点を合わせてきたが、その逆で話される英語を手話のアニメーションに変えることは、ほとんど見過ごされてしまった。
それは、音声の理解、手話にやさしい文法への翻訳、自然な人間の動きの生成など、複数のステップが伴うからです。
本研究では,英語の音声をスムーズでリアルな3D手話アニメーションに変換する完全パイプラインを提案する。
私たちのシステムはWhisperから始まり、話し言葉をテキストに翻訳します。
次に、MarianMT機械翻訳モデルを用いて、そのテキストをASL(American Sign Language)に翻訳する。
このモデルはよく機能し、BLEUスコアは0.7714と0.8923に達する。
用語翻訳をより正確にするために、Word2VecやFastTextといった単語埋め込みを用いて単語の意味を理解する。
最後に,WLASLデータセット内の実ASLビデオから,身体,手,顔のキーポイントを抽出して作成したデータセットであるSign3D-WLASLに基づいて学習した3Dキーポイントベースのモーションシステムを用いて,翻訳された光沢をアニメーション化する。
グロス翻訳の段階をサポートするため、我々はBookGlossCorpus-CGという新しいデータセットを構築した。
私たちのシステムは、自然で連続的なアニメーションを作成するために、標識間のスムーズな補間によって、すべてを縫い合わせる。
How2SignやPhoenix-2014Tのように、音声認識や1種類のデータのみにフォーカスする従来の作品とは異なり、私たちのパイプラインでは、音声、テキスト、モーションを単一のフレームワークに統合しています。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。
本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Mixed SIGNals: Sign Language Production via a Mixture of Motion
Primitives [37.679114155300084]
アバターをベースとした手話生成(SLP)は伝統的に、手の動きのシーケンスと表情のアニメーションを構築してきた。
我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。
最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。
アニメーションのサブタスクは、学習した手話表現によく似た表現的な手話列を生成することを目的としている。
論文 参考訳(メタデータ) (2021-07-23T15:53:11Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。