論文の概要: Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Production
- arxiv url: http://arxiv.org/abs/2509.10845v1
- Date: Sat, 13 Sep 2025 15:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.812291
- Title: Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Production
- Title(参考訳): Text2Sign Diffusion: グロスフリー手話生成のための生成的アプローチ
- Authors: Liqian Feng, Lintao Wang, Kun Hu, Dehui Kong, Zhiyong Wang,
- Abstract要約: 手話生成は、手話文を手話のポーズフレームの列に変換することを目的としている。
既存の方法は、手話の単語やフレーズの象徴的な表現であるグロスに依存している。
グロースフリーSLPのための新しい拡散法であるText2Sign Diffusion(Text2SignDiff)を提案する。
- 参考スコア(独自算出の注目度): 32.99299619724994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language production (SLP) aims to translate spoken language sentences into a sequence of pose frames in a sign language, bridging the communication gap and promoting digital inclusion for deaf and hard-of-hearing communities. Existing methods typically rely on gloss, a symbolic representation of sign language words or phrases that serves as an intermediate step in SLP. This limits the flexibility and generalization of SLP, as gloss annotations are often unavailable and language-specific. Therefore, we present a novel diffusion-based generative approach - Text2Sign Diffusion (Text2SignDiff) for gloss-free SLP. Specifically, a gloss-free latent diffusion model is proposed to generate sign language sequences from noisy latent sign codes and spoken text jointly, reducing the potential error accumulation through a non-autoregressive iterative denoising process. We also design a cross-modal signing aligner that learns a shared latent space to bridge visual and textual content in sign and spoken languages. This alignment supports the conditioned diffusion-based process, enabling more accurate and contextually relevant sign language generation without gloss. Extensive experiments on the commonly used PHOENIX14T and How2Sign datasets demonstrate the effectiveness of our method, achieving the state-of-the-art performance.
- Abstract(参考訳): 手話生成(SLP)は、手話文を手話のポーズフレームの列に変換し、コミュニケーションギャップを埋め、聴覚障害や難聴者コミュニティへのデジタル包摂を促進することを目的としている。
既存のメソッドは通常、SLPの中間ステップとして機能する手話語やフレーズの象徴的な表現であるグロスに依存している。
これにより、グロスアノテーションがしばしば利用できなくなり、言語固有のため、SLPの柔軟性と一般化が制限される。
そこで我々は,光沢のないSLPのための新しい拡散法であるText2Sign Diffusion(Text2SignDiff)を提案する。
具体的には,非自己回帰的反復的復調処理による潜在的な誤りの蓄積を低減し,雑音の多い潜時符号符号と音声テキストから手話列を生成するために,光沢のない潜時拡散モデルを提案する。
また、手話・手話言語における視覚的・テキスト的コンテンツをブリッジするために、共有潜在空間を学習するクロスモーダル署名整合器を設計する。
このアライメントは条件付き拡散に基づくプロセスをサポートし、光沢のないより正確で文脈的に関連する手話生成を可能にする。
一般的に使われているPHOENIX14TとHow2Signデータセットの大規模な実験は、我々の手法の有効性を示し、最先端の性能を実現している。
関連論文リスト
- Hierarchical Feature Alignment for Gloss-Free Sign Language Translation [29.544715933336715]
手話翻訳は手話動画を音声文に変換する。
既存の手法は、エンドツーエンドの学習において、視覚的表現とテキスト的表現の相違に苦慮する。
我々は,手話の構造に触発された新しい階層的事前学習戦略を導入し,擬似グルースと対照的なビデオ言語アライメントを取り入れた。
論文 参考訳(メタデータ) (2025-07-09T10:45:50Z) - Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。
テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。
キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。