論文の概要: SignAvatar: Sign Language 3D Motion Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2405.07974v2
- Date: Sat, 07 Dec 2024 02:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:43.529328
- Title: SignAvatar: Sign Language 3D Motion Reconstruction and Generation
- Title(参考訳): SignAvatar: 手話3Dモーションレコンストラクションと生成
- Authors: Lu Dong, Lipisha Chaudhary, Fei Xu, Xiao Wang, Mason Lary, Ifeoma Nwogu,
- Abstract要約: SignAvatarは、単語レベルの手話の再構築と生成が可能なフレームワークである。
身体,手,顔の3次元関節回転データからなるASL3DWordデータセットをコントリビュートする。
- 参考スコア(独自算出の注目度): 10.342253593687781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving expressive 3D motion reconstruction and automatic generation for isolated sign words can be challenging, due to the lack of real-world 3D sign-word data, the complex nuances of signing motions, and the cross-modal understanding of sign language semantics. To address these challenges, we introduce SignAvatar, a framework capable of both word-level sign language reconstruction and generation. SignAvatar employs a transformer-based conditional variational autoencoder architecture, effectively establishing relationships across different semantic modalities. Additionally, this approach incorporates a curriculum learning strategy to enhance the model's robustness and generalization, resulting in more realistic motions. Furthermore, we contribute the ASL3DWord dataset, composed of 3D joint rotation data for the body, hands, and face, for unique sign words. We demonstrate the effectiveness of SignAvatar through extensive experiments, showcasing its superior reconstruction and automatic generation capabilities. The code and dataset are available on the project page.
- Abstract(参考訳): 実世界の3D手話データがないこと、署名動作の複雑なニュアンス、手話意味論のクロスモーダル理解が欠如していることから、表現力のある3D動作再構成と孤立した手話の自動生成は困難である。
これらの課題に対処するために、単語レベルの手話の再構築と生成が可能なフレームワークSignAvatarを紹介した。
SignAvatarは、トランスフォーマーベースの条件付き変分オートエンコーダアーキテクチャを採用し、異なるセマンティックモダリティ間の関係を効果的に確立する。
さらに、このアプローチはモデルの堅牢性と一般化を強化するためのカリキュラム学習戦略を取り入れ、より現実的な動きをもたらす。
さらに,身体,手,顔の3次元関節回転データからなるASL3DWordデータセットを,ユニークな手話にコントリビュートする。
我々はSignAvatarの有効性を広範な実験を通して実証し、その優れた再構築と自動生成能力を示す。
コードとデータセットはプロジェクトページで公開されている。
関連論文リスト
- Motion is the Choreographer: Learning Latent Pose Dynamics for Seamless Sign Language Generation [24.324964949728045]
我々は手話ビデオ生成のための新しいパラダイムを提案し、手話のセマンティクスを手話のアイデンティティから切り離す。
まず,シグナ非依存のマルチモーダルモーションレキシコンを構築し,各光沢を同一性に依存しないポーズ,ジェスチャー,および3Dメッシュシーケンスとして格納する。
このコンパクトな表現は、検索した光沢配列を時間的に一貫性のある運動軌跡に変換する離散から連続的な運動合成段階という、2つ目の重要なイノベーションを可能にします。
論文 参考訳(メタデータ) (2025-08-06T03:23:10Z) - SignAligner: Harmonizing Complementary Pose Modalities for Coherent Sign Language Generation [41.240893601941536]
我々は、広く使われているRWTH-ENIXPHO-Weather 2014Tデータセットの拡張版であるENIX14T+を紹介し、Pose、Hamer、Smplerxの3つの新しいサイン表現を特徴とする。
また,テキスト駆動のポーズ・モダリティ・コジェネレーション,マルチモーダルのオンライン協調補正,現実的な手話合成の3段階からなる手話生成のための手話生成手法であるSignAlignerを提案する。
論文 参考訳(メタデータ) (2025-06-13T09:44:42Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation [10.067978300536486]
我々は,GPUで加速した幾何再構成をオープン語彙の視覚言語モデルとシームレスに統合するゼロショットフレームワークを開発した。
トレーニングフリーシステムは、インクリメンタル処理と統合幾何系列更新により、優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:07:25Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。
本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z) - Independent Sign Language Recognition with 3D Body, Hands, and Face
Reconstruction [46.70761714133466]
独立手話認識(Independent Sign Language Recognition)は、コンピュータビジョンのいくつかの課題を組み合わせた複雑な視覚認識問題である。
3つの情報チャネルを適切に組み合わせて手話の認識を効果的に行う作業は行われていない。
SMPL-Xは,1枚の画像から3次元の身体形状,顔,手の情報を同時抽出できる,現代のパラメトリックモデルである。
論文 参考訳(メタデータ) (2020-11-24T23:50:26Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。