論文の概要: Text-Driven Diffusion Model for Sign Language Production
- arxiv url: http://arxiv.org/abs/2503.15914v1
- Date: Thu, 20 Mar 2025 07:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:02.985708
- Title: Text-Driven Diffusion Model for Sign Language Production
- Title(参考訳): 手話生成のためのテキスト駆動拡散モデル
- Authors: Jiayi He, Xu Wang, Ruobei Zhang, Shengeng Tang, Yaxiong Wang, Lechao Cheng,
- Abstract要約: 我々は,SLRTP Sign Production Challengeに対して,hfut-lmcチームのソリューションを紹介した。
この課題は、テキスト入力から意味的に整列された手話ポーズ列を生成することである。
我々の解はBLEU-1のスコアを20.17で達成し、挑戦の2位となった。
- 参考スコア(独自算出の注目度): 13.671593137551268
- License:
- Abstract: We introduce the hfut-lmc team's solution to the SLRTP Sign Production Challenge. The challenge aims to generate semantically aligned sign language pose sequences from text inputs. To this end, we propose a Text-driven Diffusion Model (TDM) framework. During the training phase, TDM utilizes an encoder to encode text sequences and incorporates them into the diffusion model as conditional input to generate sign pose sequences. To guarantee the high quality and accuracy of the generated pose sequences, we utilize two key loss functions. The joint loss function L_{joint} is used to precisely measure and minimize the differences between the joint positions of the generated pose sequences and those of the ground truth. Similarly, the bone orientation loss function L_{bone} is instrumental in ensuring that the orientation of the bones in the generated poses aligns with the actual, correct orientations. In the inference stage, the TDM framework takes on a different yet equally important task. It starts with noisy sequences and, under the strict constraints of the text conditions, gradually refines and generates semantically consistent sign language pose sequences. Our carefully designed framework performs well on the sign language production task, and our solution achieves a BLEU-1 score of 20.17, placing second in the challenge.
- Abstract(参考訳): 我々は,SLRTP Sign Production Challengeに対して,hfut-lmcチームのソリューションを紹介した。
この課題は、テキスト入力から意味的に整列された手話ポーズ列を生成することである。
そこで本研究では,テキスト駆動拡散モデル(TDM)フレームワークを提案する。
トレーニングフェーズの間、TDMはエンコーダを使用してテキストシーケンスを符号化し、それらを条件入力として拡散モデルに組み込んでサインポーズシーケンスを生成する。
生成したポーズシーケンスの品質と精度を保証するために、2つの鍵損失関数を利用する。
合同損失関数L_{joint} は、生成されたポーズ列と基底真理の接合位置の違いを正確に測定し、最小化するために用いられる。
同様に、骨配向損失関数 L_{bone} は、生成されたポーズにおける骨配向が実際の正しい配向と整合することを保証するのに役立っている。
推論の段階では、TDMフレームワークは異なるが同様に重要なタスクを取ります。
ノイズの多いシーケンスから始まり、テキスト条件の厳密な制約の下で徐々に洗練され、意味的に一貫性のある手話ポーズシーケンスを生成する。
念入りに設計したフレームワークは手話の生産作業でよく機能し,BLEU-1スコア20.17を達成し,その課題に2位となった。
関連論文リスト
- Sign-IDD: Iconicity Disentangled Diffusion for Sign Language Production [40.654985365490596]
Sign-IDDは、関節間の相対的な位置のギャップを埋める新しいIconicity Disentanglement (ID)モジュールを組み込んでいる。
IDモジュールは従来の3D関節表現を4D骨表現に切り離す。
属性分離層は骨方向と長さ特性を分離することを目的としており、属性制御層はポーズ生成を導くように設計されている。
論文 参考訳(メタデータ) (2024-12-18T08:36:35Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Sign Stitching: A Novel Approach to Sign Language Production [35.35777909051466]
本稿では,辞書の例を用いて,表現力のある手話列を生成することを提案する。
サインを効果的に縫合するための7段階のアプローチを提案する。
我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナにマップする。
論文 参考訳(メタデータ) (2024-05-13T11:44:57Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Ham2Pose: Animating Sign Language Notation into Pose Sequences [9.132706284440276]
音声言語を手話に翻訳することは、聴覚障害者コミュニティと聴覚障害者コミュニティとの間のオープンなコミュニケーションに必要である。
本稿では,Lexical Sign言語表記法であるHamNoSysで書かれたテキストを,署名されたポーズ列にアニメーションする最初の方法を提案する。
論文 参考訳(メタデータ) (2022-11-24T13:59:32Z) - G2P-DDM: Generating Sign Pose Sequence from Gloss Sequence with Discrete
Diffusion Model [8.047896755805981]
Sign Language Productionプロジェクトは、音声言語を手話列に自動的に翻訳することを目的としている。
本稿では,連続ポーズ空間生成問題を離散列生成問題に変換することで,新しい解を提案する。
以上の結果から,我々のモデルは,公共SLP評価ベンチマークにおいて,最先端のG2Pモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-19T03:49:13Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。