論文の概要: Sign Stitching: A Novel Approach to Sign Language Production
- arxiv url: http://arxiv.org/abs/2405.07663v1
- Date: Mon, 13 May 2024 11:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:55:08.826612
- Title: Sign Stitching: A Novel Approach to Sign Language Production
- Title(参考訳): Sign Stitching: 手話生産への新たなアプローチ
- Authors: Harry Walsh, Ben Saunders, Richard Bowden,
- Abstract要約: 本稿では,辞書の例と学習した表情のコードブックを用いて,表現力のある手話列を生成することを提案する。
各サインを正則なポーズ、トリミング、縫合に正規化することで、連続的なシーケンスを生成する。
我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナーにマッピングし、完全なText-to-Sign (T2S) SLPパイプラインを提示する。
- 参考スコア(独自算出の注目度): 35.35777909051466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Production (SLP) is a challenging task, given the limited resources available and the inherent diversity within sign data. As a result, previous works have suffered from the problem of regression to the mean, leading to under-articulated and incomprehensible signing. In this paper, we propose using dictionary examples and a learnt codebook of facial expressions to create expressive sign language sequences. However, simply concatenating signs and adding the face creates robotic and unnatural sequences. To address this we present a 7-step approach to effectively stitch sequences together. First, by normalizing each sign into a canonical pose, cropping, and stitching we create a continuous sequence. Then, by applying filtering in the frequency domain and resampling each sign, we create cohesive natural sequences that mimic the prosody found in the original data. We leverage a SignGAN model to map the output to a photo-realistic signer and present a complete Text-to-Sign (T2S) SLP pipeline. Our evaluation demonstrates the effectiveness of the approach, showcasing state-of-the-art performance across all datasets. Finally, a user evaluation shows our approach outperforms the baseline model and is capable of producing realistic sign language sequences.
- Abstract(参考訳): 手話生産(SLP)は、利用可能な限られたリソースと手話データに固有の多様性を考えると、難しい課題である。
その結果、従来の作業は平均への回帰の問題に悩まされ、未解決で理解不能な署名につながった。
本稿では,辞書の例と学習した表情のコードブックを用いて,表現力のある手話列を生成することを提案する。
しかし、単に記号を結合して顔を追加するだけで、ロボットと不自然なシーケンスが生成される。
これを解決するために,シーケンスを効果的に縫合する7段階の手法を提案する。
まず、各サインを標準のポーズに正規化し、トリミングし、縫合することで、連続的なシーケンスを生成します。
次に、周波数領域にフィルタリングを適用して各符号を再サンプリングすることにより、元のデータに現れる韻律を模倣する結合的な自然列を生成する。
我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナーにマッピングし、完全なText-to-Sign (T2S) SLPパイプラインを提示する。
提案手法の有効性を実証し,全データセットにまたがる最先端性能を示す。
最後に、ユーザ評価により、我々のアプローチはベースラインモデルよりも優れており、現実的な手話列を生成することができることを示す。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - A Data-Driven Representation for Sign Language Production [26.520016084139964]
手話生産は、手話文を自動的に手話の連続配列に変換することを目的としている。
現在の最先端のアプローチは、作業する言語資源の不足に依存しています。
本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。
論文 参考訳(メタデータ) (2024-04-17T15:52:38Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Word separation in continuous sign language using isolated signs and
post-processing [47.436298331905775]
連続手話認識のための2段階モデルを提案する。
第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。
第2段階では、モデルの最初の部分から得られたソフトマックス出力に後処理アルゴリズムを適用する。
論文 参考訳(メタデータ) (2022-04-02T18:34:33Z) - SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition [94.30084702921529]
手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
論文 参考訳(メタデータ) (2021-10-11T16:18:09Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - Adversarial Training for Multi-Channel Sign Language Production [43.45785951443149]
本稿では,手話生成に対する逆多重チャネルアプローチを提案する。
我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。
逆微分器は、原文で条件付けられた符号生成の現実性を評価し、生成元を現実的で明瞭な出力にプッシュする。
論文 参考訳(メタデータ) (2020-08-27T23:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。