論文の概要: Non-Autoregressive Sign Language Production via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2208.06183v1
- Date: Fri, 12 Aug 2022 09:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 12:53:36.953962
- Title: Non-Autoregressive Sign Language Production via Knowledge Distillation
- Title(参考訳): 知識蒸留による非自己回帰手話生成
- Authors: Eui Jun Hwang, Jung Ho Kim, Suk min Cho and Jong C. Park
- Abstract要約: 手話生産は、手話における表現を手話で対応するものに変換することを目的としている。
既存のSLPモデルはAutoRegressive(AR)またはNon-Autoregressive(NAR)である。
本稿では,これらの問題に対処するため,知識蒸留(KD)を用いた新しいNAR-SLPモデルを提案する。
- 参考スコア(独自算出の注目度): 1.6115449653258351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Production (SLP) aims to translate expressions in spoken
language into corresponding ones in sign language, such as skeleton-based sign
poses or videos. Existing SLP models are either AutoRegressive (AR) or
Non-Autoregressive (NAR). However, AR-SLP models suffer from regression to the
mean and error propagation during decoding. NSLP-G, a NAR-based model, resolves
these issues to some extent but engenders other problems. For example, it does
not consider target sign lengths and suffers from false decoding initiation. We
propose a novel NAR-SLP model via Knowledge Distillation (KD) to address these
problems. First, we devise a length regulator to predict the end of the
generated sign pose sequence. We then adopt KD, which distills
spatial-linguistic features from a pre-trained pose encoder to alleviate false
decoding initiation. Extensive experiments show that the proposed approach
significantly outperforms existing SLP models in both Frechet Gesture Distance
and Back-Translation evaluation.
- Abstract(参考訳): 手話生成(SLP)は、音声言語における表現を、骨格に基づく手話やビデオなどの手話で対応するものに変換することを目的としている。
既存のSLPモデルはAutoRegressive(AR)またはNon-Autoregressive(NAR)である。
しかし,AR-SLPモデルでは,復号化時の平均値と誤り伝播の回帰に悩まされている。
NARベースのモデルであるNSLP-Gは、これらの問題をある程度解決するが、他の問題を解決する。
例えば、ターゲット符号の長さは考慮せず、誤った復号化の開始に苦しむ。
本稿では,これらの問題に対処するための知識蒸留(KD)による新しいNAR-SLPモデルを提案する。
まず、生成した符号ポーズシーケンスの終端を予測するために長さレギュレータを考案する。
次に,事前訓練されたポーズエンコーダから空間言語的特徴を抽出し,偽復号化を緩和するKDを採用する。
広汎な実験により,提案手法はFrechet Gesture DistanceとBack-Translationの評価において既存のSLPモデルよりも有意に優れていた。
関連論文リスト
- A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - Adversarial Training for Multi-Channel Sign Language Production [43.45785951443149]
本稿では,手話生成に対する逆多重チャネルアプローチを提案する。
我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。
逆微分器は、原文で条件付けられた符号生成の現実性を評価し、生成元を現実的で明瞭な出力にプッシュする。
論文 参考訳(メタデータ) (2020-08-27T23:05:54Z) - Multitask Non-Autoregressive Model for Human Motion Prediction [33.98939145212708]
非auToregressive Model (NAT) は、文脈エンコーダと位置エンコードモジュールと同様に、完全な非自己回帰復号方式で提案される。
提案手法はHuman3.6MとCMU-Mocapのベンチマークで評価され,最先端の自己回帰手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-13T15:00:19Z) - Progressive Transformers for End-to-End Sign Language Production [43.45785951443149]
自動手話生成(SLP)の目的は、音声言語を手話ビデオの連続ストリームに変換することである。
主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。
本稿では,手話を表す音声文から連続的な3Dスケルトンへの変換が可能な新しいアーキテクチャであるProgressive Transformersを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。