Fugu-MT 論文翻訳(概要): SignDiff: Diffusion Models for American Sign Language Production

論文の概要: SignDiff: Diffusion Models for American Sign Language Production

arxiv url: http://arxiv.org/abs/2308.16082v2
Date: Sat, 19 Oct 2024 21:18:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.283069
Title: SignDiff: Diffusion Models for American Sign Language Production
Title（参考訳）: SignDiff: アメリカの手話生産のための拡散モデル
Authors: Sen Fang, Chunyu Sui, Yanghao Zhou, Xuedong Zhang, Hongbin Zhong, Minyu Zhao, Yapeng Tian, Chen Chen,
Abstract要約: 本稿では,手話話者を骨格ポーズから生成できるSignDiffという2条件拡散事前学習モデルを提案する。また,テキスト入力からASL骨格ポーズビデオを生成する,ASLP(American Sign Language Production)の新たな手法を提案する。
参考スコア（独自算出の注目度）: 23.82668888574089
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a dual-condition diffusion pre-training model named SignDiff that can generate human sign language speakers from a skeleton pose. SignDiff has a novel Frame Reinforcement Network called FR-Net, similar to dense human pose estimation work, which enhances the correspondence between text lexical symbols and sign language dense pose frames, reduces the occurrence of multiple fingers in the diffusion model. In addition, we propose a new method for American Sign Language Production (ASLP), which can generate ASL skeletal pose videos from text input, integrating two new improved modules and a new loss function to improve the accuracy and quality of sign language skeletal posture and enhance the ability of the model to train on large-scale data. We propose the first baseline for ASL production and report the scores of 17.19 and 12.85 on BLEU-4 on the How2Sign dev/test sets. We evaluated our model on the previous mainstream dataset PHOENIX14T, and our method achieved the SOTA results. In addition, our image quality far exceeds all previous results by 10 percentage points in terms of SSIM.
Abstract（参考訳）: 本稿では,手話話者を骨格ポーズから生成できるSignDiffという2条件拡散事前学習モデルを提案する。 SignDiff には FR-Net と呼ばれる新しいフレーム強化ネットワークがあり、これはヒトの高密度ポーズ推定作業と似ており、テキスト語彙記号と手話の高密度ポーズフレームとの対応性を高め、拡散モデルにおける複数の指の発生を減らす。さらに,ASLP(American Sign Language Production)の新たな手法を提案する。テキスト入力からASLの骨格ポーズビデオを生成し,改良された2つのモジュールと新しいロス関数を統合することで,手話骨格姿勢の精度と品質を改善し,大規模データでトレーニングするモデルの能力を向上させる。本稿では, BLEU-4 上での17.19 と 12.85 のスコアを How2Sign 開発/テストセット上で報告する。提案手法は,従来の主流データセットであるPHOENIX14Tで評価し,SOTAの結果を得た。さらに、画像の質は、SSIMの点において、これまでの結果よりも10ポイント上回っている。

関連論文リスト

KD-MSLRT: Lightweight Sign Language Recognition Model Based on Mediapipe and 3D to 1D Knowledge Distillation [8.891724904033582]
本稿では,3次元から1次元へのクロスモーダル多知識蒸留手法と,新しいエンドツーエンドのテキスト修正フレームワークを提案する。 PHOENIX14とPHOENIX14Tデータセットのワード誤り率(WER)は最先端のCorrNetと比較して少なくとも1.4%低下する。また、中国語手話データセットの収集とリリースも行い、専門的な訓練語彙を開発した。
論文参考訳（メタデータ） (2025-01-04T15:59:33Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
SignLLM: Sign Languages Production Large Language Models [33.438444361552854]
本稿では,Prompt2Signという,多言語手話データセットについて紹介する。私たちのデータセットは、大量のビデオを合理化されたモデルフレンドリーなフォーマットに変換します。本稿では,最初の多言語手話生成モデルであるSignLLMを提案する。
論文参考訳（メタデータ） (2024-05-17T12:01:43Z)
Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文参考訳（メタデータ） (2023-12-20T10:53:06Z)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。事前訓練された言語モデルは限られた助けを提供する。
論文参考訳（メタデータ） (2023-11-27T07:19:26Z)
SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-08T17:16:38Z)
Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文参考訳（メタデータ） (2023-02-15T14:36:18Z)
DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2022-11-28T03:25:49Z)
Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。 Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文参考訳（メタデータ） (2022-11-24T03:25:04Z)
Changing the Representation: Examining Language Representation for Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。 BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文参考訳（メタデータ） (2022-09-16T12:45:29Z)
Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文参考訳（メタデータ） (2022-03-29T08:51:38Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文参考訳（メタデータ） (2020-11-19T14:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。