論文の概要: A Simple Baseline for Spoken Language to Sign Language Translation with
3D Avatars
- arxiv url: http://arxiv.org/abs/2401.04730v1
- Date: Tue, 9 Jan 2024 18:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:01:59.334546
- Title: A Simple Baseline for Spoken Language to Sign Language Translation with
3D Avatars
- Title(参考訳): 3次元アバターを用いた手話翻訳のための簡易ベースライン
- Authors: Ronglai Zuo, Fangyun Wei, Zenggui Chen, Brian Mak, Jiaolong Yang, Xin
Tong
- Abstract要約: Spoken2Signは、音声言語を手話に変換するシステムである。
Spoken2Signタスクを3Dサインの出力フォーマットで最初に提示します。
- 参考スコア(独自算出の注目度): 52.56042673495026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to develop a functional system for translating
spoken languages into sign languages, referred to as Spoken2Sign translation.
The Spoken2Sign task is orthogonal and complementary to traditional sign
language to spoken language (Sign2Spoken) translation. To enable Spoken2Sign
translation, we present a simple baseline consisting of three steps: 1)
creating a gloss-video dictionary using existing Sign2Spoken benchmarks; 2)
estimating a 3D sign for each sign video in the dictionary; 3) training a
Spoken2Sign model, which is composed of a Text2Gloss translator, a sign
connector, and a rendering module, with the aid of the yielded gloss-3D sign
dictionary. The translation results are then displayed through a sign avatar.
As far as we know, we are the first to present the Spoken2Sign task in an
output format of 3D signs. In addition to its capability of Spoken2Sign
translation, we also demonstrate that two by-products of our approach-3D
keypoint augmentation and multi-view understanding-can assist in keypoint-based
sign language understanding. Code and models will be available at
https://github.com/FangyunWei/SLRT
- Abstract(参考訳): 本研究の目的は,音声言語を手話言語に翻訳する機能的システムを開発することである。
spoken2signタスクは、従来の手話と音声言語(sign2spoken)の翻訳と直交し補完する。
Spoken2Sign変換を実現するために,3つのステップからなる単純なベースラインを示す。
1) 既存のSign2Spokenベンチマークを用いたグロスビデオ辞書の作成
2 辞書のサインビデオごとに3次元の符号を推定すること。
3) Text2Gloss トランスレータ, サインコネクタ, レンダリングモジュールで構成される Spoken2Sign モデルを, 得られた Gloss-3D 符号辞書の助けを借りて訓練する。
翻訳結果は、記号アバターを介して表示される。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
Spoken2Sign翻訳の能力に加えて、我々のアプローチ-3Dキーポイント拡張とマルチビュー理解の2つの副産物がキーポイントベースの手話理解を支援することを示した。
コードとモデルはhttps://github.com/FangyunWei/SLRTで入手できる。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。