論文の概要: Sign-IDD: Iconicity Disentangled Diffusion for Sign Language Production
- arxiv url: http://arxiv.org/abs/2412.13609v2
- Date: Thu, 19 Dec 2024 03:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:11.712721
- Title: Sign-IDD: Iconicity Disentangled Diffusion for Sign Language Production
- Title(参考訳): 符号IDD:手話生成のための不連続解離拡散
- Authors: Shengeng Tang, Jiayi He, Dan Guo, Yanyan Wei, Feng Li, Richang Hong,
- Abstract要約: Sign-IDDは、関節間の相対的な位置のギャップを埋める新しいIconicity Disentanglement (ID)モジュールを組み込んでいる。
IDモジュールは従来の3D関節表現を4D骨表現に切り離す。
属性分離層は骨方向と長さ特性を分離することを目的としており、属性制御層はポーズ生成を導くように設計されている。
- 参考スコア(独自算出の注目度): 40.654985365490596
- License:
- Abstract: Sign Language Production (SLP) aims to generate semantically consistent sign videos from textual statements, where the conversion from textual glosses to sign poses (G2P) is a crucial step. Existing G2P methods typically treat sign poses as discrete three-dimensional coordinates and directly fit them, which overlooks the relative positional relationships among joints. To this end, we provide a new perspective, constraining joint associations and gesture details by modeling the limb bones to improve the accuracy and naturalness of the generated poses. In this work, we propose a pioneering iconicity disentangled diffusion framework, termed Sign-IDD, specifically designed for SLP. Sign-IDD incorporates a novel Iconicity Disentanglement (ID) module to bridge the gap between relative positions among joints. The ID module disentangles the conventional 3D joint representation into a 4D bone representation, comprising the 3D spatial direction vector and 1D spatial distance vector between adjacent joints. Additionally, an Attribute Controllable Diffusion (ACD) module is introduced to further constrain joint associations, in which the attribute separation layer aims to separate the bone direction and length attributes, and the attribute control layer is designed to guide the pose generation by leveraging the above attributes. The ACD module utilizes the gloss embeddings as semantic conditions and finally generates sign poses from noise embeddings. Extensive experiments on PHOENIX14T and USTC-CSL datasets validate the effectiveness of our method. The code is available at: https://github.com/NaVi-start/Sign-IDD.
- Abstract(参考訳): 手話生成(SLP)は、テキスト文から意味的に一貫した手話ビデオを生成することを目的としており、手話から手話への変換は重要なステップである。
既存のG2P法は通常、手話のポーズを離散的な3次元座標として扱い、それらを直接適合させ、関節間の相対的な位置関係を見落としている。
そこで本研究では,手足骨をモデル化することにより,合成したポーズの精度と自然性を向上させることで,関節の関連性やジェスチャーの詳細を制約する新たな視点を提案する。
本研究では,SLPに特化して設計されたSign-IDDと呼ばれる,不整合拡散の先駆的なフレームワークを提案する。
Sign-IDDは、関節間の相対的な位置のギャップを埋める新しいIconicity Disentanglement (ID)モジュールを組み込んでいる。
IDモジュールは、従来の3次元関節表現を隣接する関節間で3次元空間方向ベクトルと1次元空間距離ベクトルからなる4次元骨表現に切り離す。
さらに、属性分離層が骨の方向と長さの属性を分離することを目的とし、属性制御層が上記の属性を活用してポーズ生成を誘導するようにデザインされた属性制御可能拡散(ACD)モジュールを更に制約結合に導入する。
ACDモジュールは、グロス埋め込みを意味条件として利用し、最終的にノイズ埋め込みからサインポーズを生成する。
PHOENIX14TとUTC-CSLデータセットの大規模な実験により,本手法の有効性が検証された。
コードはhttps://github.com/NaVi-start/Sign-IDD.comで公開されている。
関連論文リスト
- Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment [11.72557768532557]
ゼロショットアクション認識の鍵は、視覚的特徴をアクションカテゴリを表す意味ベクトルと整合させることにある。
提案手法は、一般的なゼロショットスケルトンに基づく動作認識ベンチマークにおいて、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-22T06:44:58Z) - Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding [59.600122444681524]
3Dビジュアルグラウンドティング(3D visual grounding)は、3D物理世界と自然言語を結びつける研究分野である。
本稿では,DASANet,Dual Attribute-Spatial Relationed Networkを提案する。
提案手法は,Nr3Dデータセットにおいて,最強の競合相手よりも1.3%高い65.1%の接地精度を実現する。
論文 参考訳(メタデータ) (2024-06-13T08:06:57Z) - Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection [108.672972439282]
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,擬似ラベルを効率的に生成するためのDPGモジュールを特徴とする。
また,擬似ラベルの雑音深度監視による最適化競合を軽減するために,DGPモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-26T05:12:18Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis [81.70922087960271]
我々は,非構造画像から学習した新しい幾何学誘導型3次元頭部合成モデルであるOmniAvatarを提案する。
我々のモデルは、最先端の手法と比較して、魅力的なダイナミックディテールで、より好ましいID保存された3Dヘッドを合成することができる。
論文 参考訳(メタデータ) (2023-03-27T18:36:53Z) - BEST: BERT Pre-Training for Sign Language Recognition with Coupling
Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。
手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。
劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文 参考訳(メタデータ) (2023-02-10T06:23:44Z) - 3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D
Object Manipulation [2.8661021832561757]
3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。
ほとんどのモデルは、広範囲なセマンティックラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクトの形状セマンティクスを操作するための制御性を提供していません。
本稿では3DLatNavを提案する。3Dオブジェクトの制御部分レベルのセマンティック操作を可能にするために,事前学習された潜在空間をナビゲートする新しいアプローチである。
論文 参考訳(メタデータ) (2022-11-17T18:47:56Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - A hybrid classification-regression approach for 3D hand pose estimation
using graph convolutional networks [1.0152838128195467]
目的ごとの関係制約を学習する2段階のGCNベースのフレームワークを提案する。
第1フェーズは2D/3D空間を量子化し、その局所性に基づいて関節を2D/3Dブロックに分類する。
第2段階ではGCNベースのモジュールを使用し、隣り合う適応アルゴリズムを用いて関節関係を決定する。
論文 参考訳(メタデータ) (2021-05-23T10:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。