論文の概要: Stable Signer: Hierarchical Sign Language Generative Model
- arxiv url: http://arxiv.org/abs/2512.04048v1
- Date: Wed, 03 Dec 2025 18:33:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:02.720305
- Title: Stable Signer: Hierarchical Sign Language Generative Model
- Title(参考訳): 安定署名者:階層的な手話生成モデル
- Authors: Sen Fang, Yalin Feng, Hongbin Zhong, Yanxin Zhang, Dimitris N. Metaxas,
- Abstract要約: 従来の冗長構造を合理化し、タスクの目的を単純化し、最適化し、Stable Signerと呼ばれる新しい手話生成モデルを設計する。
SLPタスクを、テキスト理解のみを含む階層的なエンドツーエンドタスクとして再定義する。
SLP-MoEハンドジェスチャレンダリングエキスパートブロックを通じて手ジェスチャーを生成し、エンドツーエンドで高品質でマルチスタイルの手話ビデオを生成する。
- 参考スコア(独自算出の注目度): 26.707989581304734
- License:
- Abstract: Sign Language Production (SLP) is the process of converting the complex input text into a real video. Most previous works focused on the Text2Gloss, Gloss2Pose, Pose2Vid stages, and some concentrated on Prompt2Gloss and Text2Avatar stages. However, this field has made slow progress due to the inaccuracy of text conversion, pose generation, and the rendering of poses into real human videos in these stages, resulting in gradually accumulating errors. Therefore, in this paper, we streamline the traditional redundant structure, simplify and optimize the task objective, and design a new sign language generative model called Stable Signer. It redefines the SLP task as a hierarchical generation end-to-end task that only includes text understanding (Prompt2Gloss, Text2Gloss) and Pose2Vid, and executes text understanding through our proposed new Sign Language Understanding Linker called SLUL, and generates hand gestures through the named SLP-MoE hand gesture rendering expert block to end-to-end generate high-quality and multi-style sign language videos. SLUL is trained using the newly developed Semantic-Aware Gloss Masking Loss (SAGM Loss). Its performance has improved by 48.6% compared to the current SOTA generation methods.
- Abstract(参考訳): Sign Language Production (SLP) は、複雑な入力テキストを実際のビデオに変換するプロセスである。
以前はText2Gloss、Gloss2Pose、Pose2Vid、Prompt2Gloss、Text2Avatarに集中していた。
しかし、この分野は、テキスト変換の不正確さ、ポーズ生成、実際の人間のビデオへのポーズのレンダリングなどにより、ゆっくりと進歩し、次第にエラーを蓄積する。
そこで本稿では,従来の冗長構造を合理化し,タスクの目的を単純化し,最適化し,Stable Signerと呼ばれる新しい手話生成モデルを設計する。
SLPタスクを、テキスト理解(Prompt2Gloss, Text2Gloss)とPose2Vidのみを含む階層的なエンドツーエンドタスクとして再定義し、提案した新たな手話理解リンク(SLUL)を通じてテキスト理解を実行し、名前付きSLP-MoEハンドジェスチャーレンダリングエキスパートブロックを通じて手ジェスチャーを生成し、高品質でマルチスタイルの手話ビデオを生成する。
SLULは、新たに開発されたSemantic-Aware Gloss Masking Loss (SAGM Loss)を用いて訓練されている。
その性能は現在のSOTA生成法と比較して48.6%向上した。
関連論文リスト
- Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文 参考訳(メタデータ) (2024-12-04T07:26:44Z) - A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。
テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。
キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - PIXAR: Auto-Regressive Language Modeling in Pixel Space [51.530056034156374]
テキスト生成を行うピクセルベース自動回帰LDMであるPIXARを紹介する。
デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。
そこで本研究では,LAMBADAでは8.1,bAbIでは8.5,PIXARでは8.1の可読性と精度を向上させる逆事前学習ステージを提案する。
論文 参考訳(メタデータ) (2024-01-06T22:49:38Z) - Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。
まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。
従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文 参考訳(メタデータ) (2023-12-20T10:53:06Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。