Fugu-MT 論文翻訳(概要): SignDiff: Learning Diffusion Models for American Sign Language Production

論文の概要: SignDiff: Learning Diffusion Models for American Sign Language Production

arxiv url: http://arxiv.org/abs/2308.16082v1
Date: Wed, 30 Aug 2023 15:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 13:05:31.284897
Title: SignDiff: Learning Diffusion Models for American Sign Language Production
Title（参考訳）: SignDiff: アメリカの手話生産のための拡散モデル学習
Authors: Sen Fang, Chunyu Sui, Xuedong Zhang, Yapeng Tian
Abstract要約: サイン言語生産の分野には、過去10年間に連続したアメリカ手話生産のためのディープラーニングに基づく大規模で事前訓練されたモデルが欠けていた。本稿では,人手話話者を骨格のポーズから生成できる2条件拡散事前学習モデルSignDiffを提案する。我々のASLP法は,手話骨格姿勢の精度と品質を向上させるために,2つの改良されたモジュールと新たな損失関数を提案する。
参考スコア（独自算出の注目度）: 27.899654531461238
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The field of Sign Language Production (SLP) lacked a large-scale, pre-trained model based on deep learning for continuous American Sign Language (ASL) production in the past decade. This limitation hampers communication for all individuals with disabilities relying on ASL. To address this issue, we undertook the secondary development and utilization of How2Sign, one of the largest publicly available ASL datasets. Despite its significance, prior researchers in the field of sign language have not effectively employed this corpus due to the intricacies involved in American Sign Language Production (ASLP). To conduct large-scale ASLP, we propose SignDiff based on the latest work in related fields, which is a dual-condition diffusion pre-training model that can generate human sign language speakers from a skeleton pose. SignDiff has a novel Frame Reinforcement Network called FR-Net, similar to dense human pose estimation work, which enhances the correspondence between text lexical symbols and sign language dense pose frames reduce the occurrence of multiple fingers in the diffusion model. In addition, our ASLP method proposes two new improved modules and a new loss function to improve the accuracy and quality of sign language skeletal posture and enhance the ability of the model to train on large-scale data. We propose the first baseline for ASL production and report the scores of 17.19 and 12.85 on BLEU-4 on the How2Sign dev/test sets. We also evaluated our model on the previous mainstream dataset called PHOENIX14T, and the main experiments achieved the results of SOTA. In addition, our image quality far exceeds all previous results by 10 percentage points on the SSIM indicator. Finally, we conducted ablation studies and qualitative evaluations for discussion.
Abstract（参考訳）: サイン言語生産(SLP)の分野には、過去10年間に連続したアメリカ手話生産のためのディープラーニングに基づく大規模で事前訓練されたモデルがなかった。この制限は、ASLに依存している障害者全員のコミュニケーションを妨げます。この問題に対処するため、我々は、最も広く公開されているASLデータセットの1つであるHow2Signの二次的な開発と利用を行った。その重要性にもかかわらず、アメリカ手話生産(ASLP)に関わる複雑さのため、手話分野の先行研究者はこのコーパスを効果的に利用していない。本研究では,人間の手話話者をスケルトンポーズから生成できる2条件拡散事前学習モデルである関連分野の最新研究に基づいて,大規模aslpを行うための手話差分を提案する。 signdiffにはfr-netと呼ばれる新しいフレーム強化ネットワークがあり、これは、テキスト語彙記号と手話の密接なポーズフレームとの対応を強化し、拡散モデルにおける複数の指の発生を減少させる。さらに,ASLP法では,手話の骨格姿勢の精度と品質を改善し,大規模データの学習能力を高めるために,2つの改良されたモジュールと新たなロス関数を提案する。本稿では, BLEU-4 上での17.19 と 12.85 のスコアを How2Sign 開発/テストセット上で報告する。また,PHOENIX14Tという従来主流のデータセットを用いて本モデルの評価を行い,本実験でSOTAの結果を得た。さらに、我々の画質は、ssimインジケータ上で、これまでのすべての結果を大きく10ポイント上回っています。最後に, アブレーション研究を行い, 質的評価を行った。

関連論文リスト

KD-MSLRT: Lightweight Sign Language Recognition Model Based on Mediapipe and 3D to 1D Knowledge Distillation [8.891724904033582]
本稿では,3次元から1次元へのクロスモーダル多知識蒸留手法と,新しいエンドツーエンドのテキスト修正フレームワークを提案する。 PHOENIX14とPHOENIX14Tデータセットのワード誤り率(WER)は最先端のCorrNetと比較して少なくとも1.4%低下する。また、中国語手話データセットの収集とリリースも行い、専門的な訓練語彙を開発した。
論文参考訳（メタデータ） (2025-01-04T15:59:33Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
SignLLM: Sign Languages Production Large Language Models [33.438444361552854]
本稿では,Prompt2Signという,多言語手話データセットについて紹介する。私たちのデータセットは、大量のビデオを合理化されたモデルフレンドリーなフォーマットに変換します。本稿では,最初の多言語手話生成モデルであるSignLLMを提案する。
論文参考訳（メタデータ） (2024-05-17T12:01:43Z)
Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文参考訳（メタデータ） (2023-12-20T10:53:06Z)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。事前訓練された言語モデルは限られた助けを提供する。
論文参考訳（メタデータ） (2023-11-27T07:19:26Z)
SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-08T17:16:38Z)
Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文参考訳（メタデータ） (2023-02-15T14:36:18Z)
DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2022-11-28T03:25:49Z)
Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。 Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文参考訳（メタデータ） (2022-11-24T03:25:04Z)
Changing the Representation: Examining Language Representation for Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。 BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文参考訳（メタデータ） (2022-09-16T12:45:29Z)
Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文参考訳（メタデータ） (2022-03-29T08:51:38Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文参考訳（メタデータ） (2020-11-19T14:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。