論文の概要: Text-Driven 3D Hand Motion Generation from Sign Language Data
- arxiv url: http://arxiv.org/abs/2508.15902v1
- Date: Thu, 21 Aug 2025 18:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.155828
- Title: Text-Driven 3D Hand Motion Generation from Sign Language Data
- Title(参考訳): 手話データを用いたテキスト駆動3次元ハンドモーション生成
- Authors: Léore Bensabath, Mathis Petrovich, Gül Varol,
- Abstract要約: 我々の目標は、自然言語記述に基づく3次元手の動きの生成モデルを訓練することである。
大規模な手話ビデオデータセットと、ノイズの多い擬似アノテーション付き手話カテゴリを利用する。
このデータにより、テキスト条件付き手動拡散モデルHandMDMのトレーニングが可能になる。
- 参考スコア(独自算出の注目度): 22.857120389410465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to train a generative model of 3D hand motions, conditioned on natural language descriptions specifying motion characteristics such as handshapes, locations, finger/hand/arm movements. To this end, we automatically build pairs of 3D hand motions and their associated textual labels with unprecedented scale. Specifically, we leverage a large-scale sign language video dataset, along with noisy pseudo-annotated sign categories, which we translate into hand motion descriptions via an LLM that utilizes a dictionary of sign attributes, as well as our complementary motion-script cues. This data enables training a text-conditioned hand motion diffusion model HandMDM, that is robust across domains such as unseen sign categories from the same sign language, but also signs from another sign language and non-sign hand movements. We contribute extensive experimental investigation of these scenarios and will make our trained models and data publicly available to support future research in this relatively new field.
- Abstract(参考訳): 本研究の目的は, 触覚, 位置, 指・手の動作などの動作特性を記述した自然言語記述に基づいて, 3次元手の動きの生成モデルを訓練することである。
この目的のために、3次元手の動きとそれに関連するテキストラベルを前例のない規模で自動生成する。
具体的には、大規模手話ビデオデータセットと擬似アノテーション付き手話カテゴリを併用し、手話属性の辞書と相補的な動作-スクリプトの手がかりを用いて手話記述に変換する。
このデータにより、テキスト条件付き手動拡散モデルHandMDMのトレーニングが可能となる。これは、同じ手話からの見えない手話カテゴリや、別の手話からの手話からの手話や非手話の動きなど、ドメイン間で堅牢である。
これらのシナリオに関する広範な実験的調査に貢献し、この比較的新しい分野における将来の研究を支援するために、トレーニングされたモデルとデータを公開します。
関連論文リスト
- Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。
ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。
その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文 参考訳(メタデータ) (2025-03-05T13:10:07Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SignAvatar: Sign Language 3D Motion Reconstruction and Generation [10.342253593687781]
SignAvatarは、単語レベルの手話の再構築と生成が可能なフレームワークである。
身体,手,顔の3次元関節回転データからなるASL3DWordデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-05-13T17:48:22Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [8.050271017133076]
人間の3次元動作の詳細な自然言語記述を生成するための新しいフレームワークであるMotionScriptを紹介した。
MotionScriptは、人間の動きの完全な複雑さを捉える、きめ細かい構造化された記述を提供する。
MotionScriptは、テキスト・トゥ・モーションモデルのための記述ツールとトレーニングリソースの両方として機能する。
論文 参考訳(メタデータ) (2023-12-19T22:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。