論文の概要: Motion is the Choreographer: Learning Latent Pose Dynamics for Seamless Sign Language Generation
- arxiv url: http://arxiv.org/abs/2508.04049v1
- Date: Wed, 06 Aug 2025 03:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.526606
- Title: Motion is the Choreographer: Learning Latent Pose Dynamics for Seamless Sign Language Generation
- Title(参考訳): 振り子の運動--シームレス手話生成のための潜在ポスダイナミクスの学習
- Authors: Jiayi He, Xu Wang, Shengeng Tang, Yaxiong Wang, Lechao Cheng, Dan Guo,
- Abstract要約: 我々は手話ビデオ生成のための新しいパラダイムを提案し、手話のセマンティクスを手話のアイデンティティから切り離す。
まず,シグナ非依存のマルチモーダルモーションレキシコンを構築し,各光沢を同一性に依存しないポーズ,ジェスチャー,および3Dメッシュシーケンスとして格納する。
このコンパクトな表現は、検索した光沢配列を時間的に一貫性のある運動軌跡に変換する離散から連続的な運動合成段階という、2つ目の重要なイノベーションを可能にします。
- 参考スコア(独自算出の注目度): 24.324964949728045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language video generation requires producing natural signing motions with realistic appearances under precise semantic control, yet faces two critical challenges: excessive signer-specific data requirements and poor generalization. We propose a new paradigm for sign language video generation that decouples motion semantics from signer identity through a two-phase synthesis framework. First, we construct a signer-independent multimodal motion lexicon, where each gloss is stored as identity-agnostic pose, gesture, and 3D mesh sequences, requiring only one recording per sign. This compact representation enables our second key innovation: a discrete-to-continuous motion synthesis stage that transforms retrieved gloss sequences into temporally coherent motion trajectories, followed by identity-aware neural rendering to produce photorealistic videos of arbitrary signers. Unlike prior work constrained by signer-specific datasets, our method treats motion as a first-class citizen: the learned latent pose dynamics serve as a portable "choreography layer" that can be visually realized through different human appearances. Extensive experiments demonstrate that disentangling motion from identity is not just viable but advantageous - enabling both high-quality synthesis and unprecedented flexibility in signer personalization.
- Abstract(参考訳): 署名言語ビデオ生成は、正確な意味制御の下で現実的な外観を持つ自然な署名動作を生成する必要があるが、過剰なシグナー固有のデータ要求と一般化の不足という2つの重要な課題に直面している。
本稿では,手話ビデオ生成のための新しいパラダイムを提案する。
まず,シグナ非依存のマルチモーダルモーションレキシコンを構築し,各光沢を同一性に依存しないポーズ,ジェスチャー,および3次元メッシュシーケンスとして格納する。
このコンパクトな表現は、検索した光沢配列を時間的に整合した運動軌跡に変換する離散から連続的な運動合成ステージと、それに続く識別認識ニューラルレンダリングによって任意のシグナのフォトリアリスティックなビデオを生成する2つ目の重要なイノベーションを可能にします。
シグナ固有のデータセットによって制約された以前の作業とは異なり、我々の方法は動きを第一級市民として扱い、学習された潜在ポーズのダイナミクスは、異なる人間の外観を通して視覚的に実現できるポータブルな「コレオグラフィー層」として機能する。
広範囲にわたる実験は、アイデンティティから遠ざかる動きは、単に実現可能であるだけでなく、有利であることを示している。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文 参考訳(メタデータ) (2025-07-30T22:46:52Z) - SignAligner: Harmonizing Complementary Pose Modalities for Coherent Sign Language Generation [41.240893601941536]
我々は、広く使われているRWTH-ENIXPHO-Weather 2014Tデータセットの拡張版であるENIX14T+を紹介し、Pose、Hamer、Smplerxの3つの新しいサイン表現を特徴とする。
また,テキスト駆動のポーズ・モダリティ・コジェネレーション,マルチモーダルのオンライン協調補正,現実的な手話合成の3段階からなる手話生成のための手話生成手法であるSignAlignerを提案する。
論文 参考訳(メタデータ) (2025-06-13T09:44:42Z) - EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。