論文の概要: SignAligner: Harmonizing Complementary Pose Modalities for Coherent Sign Language Generation
- arxiv url: http://arxiv.org/abs/2506.11621v1
- Date: Fri, 13 Jun 2025 09:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.741244
- Title: SignAligner: Harmonizing Complementary Pose Modalities for Coherent Sign Language Generation
- Title(参考訳): SignAligner:コヒーレント手話生成のための補足詩モーダリティの調和
- Authors: Xu Wang, Shengeng Tang, Lechao Cheng, Feng Li, Shuo Wang, Richang Hong,
- Abstract要約: 我々は、広く使われているRWTH-ENIXPHO-Weather 2014Tデータセットの拡張版であるENIX14T+を紹介し、Pose、Hamer、Smplerxの3つの新しいサイン表現を特徴とする。
また,テキスト駆動のポーズ・モダリティ・コジェネレーション,マルチモーダルのオンライン協調補正,現実的な手話合成の3段階からなる手話生成のための手話生成手法であるSignAlignerを提案する。
- 参考スコア(独自算出の注目度): 41.240893601941536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language generation aims to produce diverse sign representations based on spoken language. However, achieving realistic and naturalistic generation remains a significant challenge due to the complexity of sign language, which encompasses intricate hand gestures, facial expressions, and body movements. In this work, we introduce PHOENIX14T+, an extended version of the widely-used RWTH-PHOENIX-Weather 2014T dataset, featuring three new sign representations: Pose, Hamer and Smplerx. We also propose a novel method, SignAligner, for realistic sign language generation, consisting of three stages: text-driven pose modalities co-generation, online collaborative correction of multimodality, and realistic sign video synthesis. First, by incorporating text semantics, we design a joint sign language generator to simultaneously produce posture coordinates, gesture actions, and body movements. The text encoder, based on a Transformer architecture, extracts semantic features, while a cross-modal attention mechanism integrates these features to generate diverse sign language representations, ensuring accurate mapping and controlling the diversity of modal features. Next, online collaborative correction is introduced to refine the generated pose modalities using a dynamic loss weighting strategy and cross-modal attention, facilitating the complementarity of information across modalities, eliminating spatiotemporal conflicts, and ensuring semantic coherence and action consistency. Finally, the corrected pose modalities are fed into a pre-trained video generation network to produce high-fidelity sign language videos. Extensive experiments demonstrate that SignAligner significantly improves both the accuracy and expressiveness of the generated sign videos.
- Abstract(参考訳): 手話生成は、音声言語に基づく多様な手話表現を作ることを目的としている。
しかし、複雑な手の動き、表情、身体の動きを含む手話の複雑さのため、現実的で自然主義的な生成を実現することは依然として重要な課題である。
本稿では,広く使用されているRWTH-PHOENIX-Weather 2014Tデータセットの拡張版であるPHOENIX14T+を紹介する。
また,テキスト駆動のポーズ・モダリティ・コジェネレーション,マルチモーダルのオンライン協調補正,現実的な手話合成の3段階からなる手話生成のための手話生成手法であるSignAlignerを提案する。
まず,テキストセマンティクスを組み込んだ共同手話生成装置を設計し,姿勢座標,ジェスチャー動作,体の動きを同時に生成する。
テキストエンコーダはトランスフォーマーアーキテクチャに基づいてセマンティックな特徴を抽出し、クロスモーダルなアテンション機構はこれらの特徴を統合して多様な手話表現を生成し、正確なマッピングを確保し、モーダルな特徴の多様性を制御する。
次に、動的損失重み付け戦略とクロスモーダルアテンションを用いて生成されたポーズモダリティを洗練させ、モダリティ間の情報の相補性を促進し、時空間的対立を排除し、セマンティックコヒーレンスとアクション一貫性を確保する。
最後に、修正されたポーズモダリティを事前訓練されたビデオ生成ネットワークに入力し、高忠実な手話ビデオを生成する。
大規模な実験により、SignAlignerは生成した手話ビデオの精度と表現性の両方を大幅に改善することが示された。
関連論文リスト
- HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation [42.30003982604611]
共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。
ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。
HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
論文 参考訳(メタデータ) (2025-03-03T04:47:39Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignAvatar: Sign Language 3D Motion Reconstruction and Generation [10.342253593687781]
SignAvatarは、単語レベルの手話の再構築と生成が可能なフレームワークである。
身体,手,顔の3次元関節回転データからなるASL3DWordデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-05-13T17:48:22Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。