論文の概要: A Simple Baseline for Spoken Language to Sign Language Translation with
3D Avatars
- arxiv url: http://arxiv.org/abs/2401.04730v1
- Date: Tue, 9 Jan 2024 18:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:01:59.334546
- Title: A Simple Baseline for Spoken Language to Sign Language Translation with
3D Avatars
- Title(参考訳): 3次元アバターを用いた手話翻訳のための簡易ベースライン
- Authors: Ronglai Zuo, Fangyun Wei, Zenggui Chen, Brian Mak, Jiaolong Yang, Xin
Tong
- Abstract要約: Spoken2Signは、音声言語を手話に変換するシステムである。
Spoken2Signタスクを3Dサインの出力フォーマットで最初に提示します。
- 参考スコア(独自算出の注目度): 52.56042673495026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to develop a functional system for translating
spoken languages into sign languages, referred to as Spoken2Sign translation.
The Spoken2Sign task is orthogonal and complementary to traditional sign
language to spoken language (Sign2Spoken) translation. To enable Spoken2Sign
translation, we present a simple baseline consisting of three steps: 1)
creating a gloss-video dictionary using existing Sign2Spoken benchmarks; 2)
estimating a 3D sign for each sign video in the dictionary; 3) training a
Spoken2Sign model, which is composed of a Text2Gloss translator, a sign
connector, and a rendering module, with the aid of the yielded gloss-3D sign
dictionary. The translation results are then displayed through a sign avatar.
As far as we know, we are the first to present the Spoken2Sign task in an
output format of 3D signs. In addition to its capability of Spoken2Sign
translation, we also demonstrate that two by-products of our approach-3D
keypoint augmentation and multi-view understanding-can assist in keypoint-based
sign language understanding. Code and models will be available at
https://github.com/FangyunWei/SLRT
- Abstract(参考訳): 本研究の目的は,音声言語を手話言語に翻訳する機能的システムを開発することである。
spoken2signタスクは、従来の手話と音声言語(sign2spoken)の翻訳と直交し補完する。
Spoken2Sign変換を実現するために,3つのステップからなる単純なベースラインを示す。
1) 既存のSign2Spokenベンチマークを用いたグロスビデオ辞書の作成
2 辞書のサインビデオごとに3次元の符号を推定すること。
3) Text2Gloss トランスレータ, サインコネクタ, レンダリングモジュールで構成される Spoken2Sign モデルを, 得られた Gloss-3D 符号辞書の助けを借りて訓練する。
翻訳結果は、記号アバターを介して表示される。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
Spoken2Sign翻訳の能力に加えて、我々のアプローチ-3Dキーポイント拡張とマルチビュー理解の2つの副産物がキーポイントベースの手話理解を支援することを示した。
コードとモデルはhttps://github.com/FangyunWei/SLRTで入手できる。
関連論文リスト
- SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and
Benchmark [21.972716680976646]
本稿では,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを紹介する。
SignAvatarsデータセットは153の署名者から7万本のビデオで構成され、合計8.34万フレームである。
メッシュや生体力学的に有意な身体・手・顔のポーズを含む3次元の全体的アノテーションを得るため,自動的なアノテーションパイプラインを導入する。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。