論文の概要: SignDiff: Learning Diffusion Models for American Sign Language
Production
- arxiv url: http://arxiv.org/abs/2308.16082v1
- Date: Wed, 30 Aug 2023 15:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:05:31.284897
- Title: SignDiff: Learning Diffusion Models for American Sign Language
Production
- Title(参考訳): SignDiff: アメリカの手話生産のための拡散モデル学習
- Authors: Sen Fang, Chunyu Sui, Xuedong Zhang, Yapeng Tian
- Abstract要約: サイン言語生産の分野には、過去10年間に連続したアメリカ手話生産のためのディープラーニングに基づく大規模で事前訓練されたモデルが欠けていた。
本稿では,人手話話者を骨格のポーズから生成できる2条件拡散事前学習モデルSignDiffを提案する。
我々のASLP法は,手話骨格姿勢の精度と品質を向上させるために,2つの改良されたモジュールと新たな損失関数を提案する。
- 参考スコア(独自算出の注目度): 27.899654531461238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of Sign Language Production (SLP) lacked a large-scale, pre-trained
model based on deep learning for continuous American Sign Language (ASL)
production in the past decade. This limitation hampers communication for all
individuals with disabilities relying on ASL. To address this issue, we
undertook the secondary development and utilization of How2Sign, one of the
largest publicly available ASL datasets. Despite its significance, prior
researchers in the field of sign language have not effectively employed this
corpus due to the intricacies involved in American Sign Language Production
(ASLP).
To conduct large-scale ASLP, we propose SignDiff based on the latest work in
related fields, which is a dual-condition diffusion pre-training model that can
generate human sign language speakers from a skeleton pose. SignDiff has a
novel Frame Reinforcement Network called FR-Net, similar to dense human pose
estimation work, which enhances the correspondence between text lexical symbols
and sign language dense pose frames reduce the occurrence of multiple fingers
in the diffusion model. In addition, our ASLP method proposes two new improved
modules and a new loss function to improve the accuracy and quality of sign
language skeletal posture and enhance the ability of the model to train on
large-scale data.
We propose the first baseline for ASL production and report the scores of
17.19 and 12.85 on BLEU-4 on the How2Sign dev/test sets. We also evaluated our
model on the previous mainstream dataset called PHOENIX14T, and the main
experiments achieved the results of SOTA. In addition, our image quality far
exceeds all previous results by 10 percentage points on the SSIM indicator.
Finally, we conducted ablation studies and qualitative evaluations for
discussion.
- Abstract(参考訳): サイン言語生産(SLP)の分野には、過去10年間に連続したアメリカ手話生産のためのディープラーニングに基づく大規模で事前訓練されたモデルがなかった。
この制限は、ASLに依存している障害者全員のコミュニケーションを妨げます。
この問題に対処するため、我々は、最も広く公開されているASLデータセットの1つであるHow2Signの二次的な開発と利用を行った。
その重要性にもかかわらず、アメリカ手話生産(ASLP)に関わる複雑さのため、手話分野の先行研究者はこのコーパスを効果的に利用していない。
本研究では,人間の手話話者をスケルトンポーズから生成できる2条件拡散事前学習モデルである関連分野の最新研究に基づいて,大規模aslpを行うための手話差分を提案する。
signdiffにはfr-netと呼ばれる新しいフレーム強化ネットワークがあり、これは、テキスト語彙記号と手話の密接なポーズフレームとの対応を強化し、拡散モデルにおける複数の指の発生を減少させる。
さらに,ASLP法では,手話の骨格姿勢の精度と品質を改善し,大規模データの学習能力を高めるために,2つの改良されたモジュールと新たなロス関数を提案する。
本稿では, BLEU-4 上での17.19 と 12.85 のスコアを How2Sign 開発/テストセット上で報告する。
また,PHOENIX14Tという従来主流のデータセットを用いて本モデルの評価を行い,本実験でSOTAの結果を得た。
さらに、我々の画質は、ssimインジケータ上で、これまでのすべての結果を大きく10ポイント上回っています。
最後に, アブレーション研究を行い, 質的評価を行った。
関連論文リスト
- KD-MSLRT: Lightweight Sign Language Recognition Model Based on Mediapipe and 3D to 1D Knowledge Distillation [8.891724904033582]
本稿では,3次元から1次元へのクロスモーダル多知識蒸留手法と,新しいエンドツーエンドのテキスト修正フレームワークを提案する。
PHOENIX14とPHOENIX14Tデータセットのワード誤り率(WER)は最先端のCorrNetと比較して少なくとも1.4%低下する。
また、中国語手話データセットの収集とリリースも行い、専門的な訓練語彙を開発した。
論文 参考訳(メタデータ) (2025-01-04T15:59:33Z) - Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。
これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - SignLLM: Sign Language Production Large Language Models [31.036549195000667]
我々は多言語手話生成(SLP)大言語モデルであるSignLLMを提案する。
MLSFとPrompt2LangGlossという2つの新しい多言語SLPモードがあり、手話のジェスチャーを生成することができる。
SignLLMのトレーニングには、包括的な多言語手話データセットであるPrompt2Signを導入する。
論文 参考訳(メタデータ) (2024-05-17T12:01:43Z) - Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。
まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。
従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文 参考訳(メタデータ) (2023-12-20T10:53:06Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。