論文の概要: StgcDiff: Spatial-Temporal Graph Condition Diffusion for Sign Language Transition Generation
- arxiv url: http://arxiv.org/abs/2506.13156v1
- Date: Mon, 16 Jun 2025 07:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.597205
- Title: StgcDiff: Spatial-Temporal Graph Condition Diffusion for Sign Language Transition Generation
- Title(参考訳): StgcDiff:手話遷移生成のための時空間グラフ条件拡散
- Authors: Jiashu He, Jiayi He, Shengeng Tang, Huixia Ben, Lechao Cheng, Richang Hong,
- Abstract要約: 離散符号間のスムーズな遷移を生成するグラフベースの条件拡散フレームワークStgcDiffを提案する。
具体的には、エンコーダ・デコーダアーキテクチャをトレーニングし、空間的時間的骨格の構造認識表現を学習する。
我々は,その空間的特徴を効果的にモデル化する,Sign-GCNモジュールをフレームワークのキーコンポーネントとして設計する。
- 参考スコア(独自算出の注目度): 33.695308849489784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language transition generation seeks to convert discrete sign language segments into continuous sign videos by synthesizing smooth transitions. However,most existing methods merely concatenate isolated signs, resulting in poor visual coherence and semantic accuracy in the generated videos. Unlike textual languages,sign language is inherently rich in spatial-temporal cues, making it more complex to model. To address this,we propose StgcDiff, a graph-based conditional diffusion framework that generates smooth transitions between discrete signs by capturing the unique spatial-temporal dependencies of sign language. Specifically, we first train an encoder-decoder architecture to learn a structure-aware representation of spatial-temporal skeleton sequences. Next, we optimize a diffusion denoiser conditioned on the representations learned by the pre-trained encoder, which is tasked with predicting transition frames from noise. Additionally, we design the Sign-GCN module as the key component in our framework, which effectively models the spatial-temporal features. Extensive experiments conducted on the PHOENIX14T, USTC-CSL100,and USTC-SLR500 datasets demonstrate the superior performance of our method.
- Abstract(参考訳): 手話遷移生成は、スムーズな遷移を合成することにより、離散手話セグメントを連続手話ビデオに変換することを目指している。
しかし、既存のほとんどの手法は単に孤立した記号を合成するだけであり、結果として生成したビデオの視覚的コヒーレンスや意味的精度が低下する。
テキスト言語とは異なり、手話は本質的に空間的時間的手がかりに富み、モデル化がより複雑である。
そこで本稿では,手話の空間的・時間的一意の依存関係を捉えることで,離散符号間のスムーズな遷移を生成するグラフベースの条件拡散フレームワークStgcDiffを提案する。
具体的には,まずエンコーダ・デコーダアーキテクチャをトレーニングし,空間的・時間的スケルトン配列の構造認識表現を学習する。
次に,事前学習したエンコーダで学習した表現に基づいて,雑音から遷移フレームを予測する拡散デノイザを最適化する。
さらに、我々はSign-GCNモジュールを我々のフレームワークのキーコンポーネントとして設計し、空間的時間的特徴を効果的にモデル化する。
PHOENIX14T, USTC-CSL100, および USTC-SLR500 を用いて行った大規模な実験により, 本手法の優れた性能を示した。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observation [45.214169930573775]
本研究では,文脈的に滑らかな遷移フレームを合成するための条件拡散モデルを提案する。
本手法は,遷移フレーム生成の教師なし問題を教師なし学習タスクに変換する。
PHO14TENIX, USTC-CSL100, USTC-500データセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-25T15:06:49Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - PiSLTRc: Position-informed Sign Language Transformer with Content-aware
Convolution [0.42970700836450487]
本稿では,2つの特徴を持つ新しいモデルアーキテクチャ,すなわちPiSLTRcを提案する。
我々は,新しいコンテンツ認識近傍収集手法を用いて,関連性のある特徴を明示的に選択する。
これらの特徴を、位置インフォームされた時間的畳み込み層で集約し、ロバストな近傍強調符号表現を生成する。
バニラトランスフォーマーモデルと比較して、我々のモデルは3つの大規模手話ベンチマークで一貫して性能が向上する。
論文 参考訳(メタデータ) (2021-07-27T05:01:27Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。