論文の概要: Human Part-wise 3D Motion Context Learning for Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2308.09305v1
- Date: Fri, 18 Aug 2023 05:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:36:47.623575
- Title: Human Part-wise 3D Motion Context Learning for Sign Language Recognition
- Title(参考訳): 手話認識のための部分的3次元動作文脈学習
- Authors: Taeryung Lee, Yeonguk Oh, Kyoung Mu Lee
- Abstract要約: 本稿では,手話認識のためのP3Dを提案する。
我々の主な貢献は、パートワイズ動作の文脈を学習し、ポーズアンサンブルを用いて2Dと3Dのポーズを併用することである。
- 参考スコア(独自算出の注目度): 54.772707210595065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose P3D, the human part-wise motion context learning
framework for sign language recognition. Our main contributions lie in two
dimensions: learning the part-wise motion context and employing the pose
ensemble to utilize 2D and 3D pose jointly. First, our empirical observation
implies that part-wise context encoding benefits the performance of sign
language recognition. While previous methods of sign language recognition
learned motion context from the sequence of the entire pose, we argue that such
methods cannot exploit part-specific motion context. In order to utilize
part-wise motion context, we propose the alternating combination of a part-wise
encoding Transformer (PET) and a whole-body encoding Transformer (WET). PET
encodes the motion contexts from a part sequence, while WET merges them into a
unified context. By learning part-wise motion context, our P3D achieves
superior performance on WLASL compared to previous state-of-the-art methods.
Second, our framework is the first to ensemble 2D and 3D poses for sign
language recognition. Since the 3D pose holds rich motion context and depth
information to distinguish the words, our P3D outperformed the previous
state-of-the-art methods employing a pose ensemble.
- Abstract(参考訳): 本稿では,手話認識のための人間の部分的動作コンテキスト学習フレームワークp3dを提案する。
我々の主な貢献は、パートワイズ動作の文脈を学習し、ポーズアンサンブルを用いて2Dと3Dのポーズを併用することである。
まず,経験的観察から,部分的文脈エンコーディングは手話認識の性能に有益であることが示唆された。
従来の手話認識手法では、ポーズ全体のシーケンスから動きコンテキストを学習していたが、これらの手法は部分固有の動きコンテキストを活用できない。
パートワイズ動作コンテキストを利用するために,パートワイズ符号化トランスフォーマ(PET)と全ボディ符号化トランスフォーマ(WET)の交互組み合わせを提案する。
PETは部分シーケンスから動作コンテキストをエンコードし、WETはそれらを統合コンテキストにマージする。
パートワイズ動作コンテキストを学習することにより,従来の最先端手法と比較してWLASLの性能が向上する。
第二に、私たちのフレームワークは手話認識のための2Dと3Dのポーズを初めてアンサンブルする。
3Dのポーズは単語を区別するためにリッチな動きコンテキストと深度情報を保持するため、我々のP3Dはポーズアンサンブルを用いた従来の最先端手法よりも優れていた。
関連論文リスト
- 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。
生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文 参考訳(メタデータ) (2024-09-16T15:06:12Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。
まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。
従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文 参考訳(メタデータ) (2023-12-20T10:53:06Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware
Prompting [38.678165053219644]
CLIP-Hand3Dと呼ばれるモノクローナル画像から新しい3Dハンドポーズ推定器を提案する。
ここでは,CLIPに基づくコントラスト学習パラダイムに従って,一対のポーズテキスト機能に対するセマンティック一貫性を最大化する。
いくつかのパブリックハンドベンチマークの実験では、提案したモデルがはるかに高速な推論速度を達成することが示されている。
論文 参考訳(メタデータ) (2023-09-28T03:40:37Z) - Reconstructing Signing Avatars From Video Using Linguistic Priors [54.5282429129769]
手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。
孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。
SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
論文 参考訳(メタデータ) (2023-04-20T17:29:50Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal
Heatmaps [2.2079886535603084]
動作分類のための統一表現において、ポーズ情報と動き情報を符号化する深度認識記述子を提案する。
本手法の鍵となる要素は,人体の意味的キーポイントの3次元移動を符号化した新しいビデオ記述子,DA-PoTionである。
論文 参考訳(メタデータ) (2020-11-26T17:26:42Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。