論文の概要: SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning
- arxiv url: http://arxiv.org/abs/2603.10446v2
- Date: Thu, 12 Mar 2026 03:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.471066
- Title: SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning
- Title(参考訳): SignSparK: スパースキーフレーム学習による効率的な多言語手話生成
- Authors: Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: 現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。
本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
- 参考スコア(独自算出の注目度): 54.232148007248874
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating natural and linguistically accurate sign language avatars remains a formidable challenge. Current Sign Language Production (SLP) frameworks face a stark trade-off: direct text-to-pose models suffer from regression-to-the-mean effects, while dictionary-retrieval methods produce robotic, disjointed transitions. To resolve this, we propose a novel training paradigm that leverages sparse keyframes to capture the true underlying kinematic distribution of human signing. By predicting dense motion from these discrete anchors, our approach mitigates regression-to-the-mean while ensuring fluid articulation. To realize this paradigm at scale, we first introduce FAST, an ultra-efficient sign segmentation model that automatically mines precise temporal boundaries. We then present SignSparK, a large-scale Conditional Flow Matching (CFM) framework that utilizes these extracted anchors to synthesize 3D signing sequences in SMPL-X and MANO spaces. This keyframe-driven formulation also uniquely unlocks Keyframe-to-Pose (KF2P) generation, making precise spatiotemporal editing of signing sequences possible. Furthermore, our adopted reconstruction-based CFM objective also enables high-fidelity synthesis in fewer than ten sampling steps; this allows SignSparK to scale across four distinct sign languages, establishing the largest multilingual SLP framework to date. Finally, by integrating 3D Gaussian Splatting for photorealistic rendering, we demonstrate through extensive evaluation that SignSparK establishes a new state-of-the-art across diverse SLP tasks and multilingual benchmarks.
- Abstract(参考訳): 自然および言語学的に正確な手話アバターを生成することは、依然として恐ろしい課題である。
現在の手話生成(SLP)フレームワークは、直接テキストから目的へのモデルが回帰から平均効果に悩まされるのに対して、辞書検索の手法はロボット的な非結合的な遷移を生み出すという、大きなトレードオフに直面している。
そこで本研究では,スパース鍵フレームを利用した新たなトレーニングパラダイムを提案する。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
このパラダイムを大規模に実現するために、我々はまず、正確な時間境界を自動的にマイニングする超効率的な符号分割モデルであるFASTを導入する。
次に,これらの抽出アンカーを用いてSMPL-XおよびMANO空間内の3次元署名シーケンスを合成する大規模条件付きフローマッチング(CFM)フレームワークSignSparKを提案する。
このキーフレーム駆動の定式化はKeyframe-to-Pose(KF2P)生成をユニークにアンロックし、署名シーケンスの正確な時空間的編集を可能にする。
さらに,提案手法を応用したCFMにより,10段階未満で高忠実度合成が可能となり,SignSparKは4つの異なる手話言語にまたがって拡張が可能となり,これまでで最大の多言語SLPフレームワークが確立された。
最後に, 3D Gaussian Splatting をフォトリアリスティックレンダリングに組み込むことで, SignSparK が様々な SLP タスクと多言語ベンチマークにまたがる新しい最先端技術を確立していることを示す。
関連論文リスト
- MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation [19.197388907510746]
自動手話翻訳の限界を克服するモジュール型フレームワークであるMultiStream-LLMを紹介する。
本手法は, BLEU-4 スコア 23.5 と 73.2% の精度を持つ How2Sign ベンチマークで, ChicagoFSWildPlus のフィンガースペルスデータセット上で, 新たな最先端性を確立した。
論文 参考訳(メタデータ) (2025-08-20T17:44:47Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。