論文の概要: M3T: Discrete Multi-Modal Motion Tokens for Sign Language Production
- arxiv url: http://arxiv.org/abs/2603.23617v1
- Date: Tue, 24 Mar 2026 18:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.976275
- Title: M3T: Discrete Multi-Modal Motion Tokens for Sign Language Production
- Title(参考訳): M3T:手話生成のためのマルチモーダルモーショントークンの離散化
- Authors: Alexandre Symeonidis-Herzig, Jianhe Low, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: 非手動的特徴として, 口づけ, まぶたの上昇, 視線, 頭部運動は文法的に義務付けられ, 手動調音器のみでは回復できない。
既存の3Dプロダクションシステムは、それらを統合するための2つの障壁に直面している。
本稿では,FLAMEのリッチな表現空間とSMPL-X本体を結合したSMPL-FXを提案する。
- 参考スコア(独自算出の注目度): 56.171224102170015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language production requires more than hand motion generation. Non-manual features, including mouthings, eyebrow raises, gaze, and head movements, are grammatically obligatory and cannot be recovered from manual articulators alone. Existing 3D production systems face two barriers to integrating them: the standard body model provides a facial space too low-dimensional to encode these articulations, and when richer representations are adopted, standard discrete tokenization suffers from codebook collapse, leaving most of the expression space unreachable. We propose SMPL-FX, which couples FLAME's rich expression space with the SMPL-X body, and tokenize the resulting representation with modality-specific Finite Scalar Quantization VAEs for body, hands, and face. M3T is an autoregressive transformer trained on this multi-modal motion vocabulary, with an auxiliary translation objective that encourages semantically grounded embeddings. Across three standard benchmarks (How2Sign, CSL-Daily, Phoenix14T) M3T achieves state-of-the-art sign language production quality, and on NMFs-CSL, where signs are distinguishable only by non-manual features, reaches 58.3% accuracy against 49.0% for the strongest comparable pose baseline.
- Abstract(参考訳): 手話の制作には手話以上のものが必要だ。
非手動的特徴として, 口づけ, まぶたの上昇, 視線, 頭部運動は文法的に義務付けられ, 手動調音器のみでは回復できない。
標準的なボディモデルは、これらの記述を符号化するには低次元すぎる顔空間を提供し、よりリッチな表現を採用すると、標準的な離散トークン化はコードブックの崩壊に悩まされ、ほとんどの表現空間は到達不能となる。
本稿では,FLAMEのリッチな表現空間とSMPL-X本体を結合したSMPL-FXを提案する。
M3Tは、この多モーダル運動語彙に基づいて訓練された自己回帰変換器であり、意味的に接地された埋め込みを促進する補助的な翻訳目的を持つ。
3つの標準ベンチマーク (How2Sign, CSL-Daily, Phoenix14T) M3T は最先端の手話の品質を達成し、NMFs-CSLでは、手動でのみ区別できるが、最も近いポーズベースラインに対して 49.0% の精度で58.3% に達する。
関連論文リスト
- SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning [54.232148007248874]
現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。
本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
論文 参考訳(メタデータ) (2026-03-11T06:02:36Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation [19.197388907510746]
自動手話翻訳の限界を克服するモジュール型フレームワークであるMultiStream-LLMを紹介する。
本手法は, BLEU-4 スコア 23.5 と 73.2% の精度を持つ How2Sign ベンチマークで, ChicagoFSWildPlus のフィンガースペルスデータセット上で, 新たな最先端性を確立した。
論文 参考訳(メタデータ) (2025-08-20T17:44:47Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。