論文の概要: Conditional Collapse in Sign Language Production: A Diagnostic and a Scaling Argument
- arxiv url: http://arxiv.org/abs/2606.01643v1
- Date: Mon, 01 Jun 2026 03:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.957914
- Title: Conditional Collapse in Sign Language Production: A Diagnostic and a Scaling Argument
- Title(参考訳): 手話生成における条件付き崩壊:診断と拡張論
- Authors: Rui Hong, Jana Košecká,
- Abstract要約: サイン言語生成(SLP)は、自然言語テキストからアバター手話の動きを生成するタスクである。
生成した動きの質は、How2Signのようなベンチマーク上で、動き空間フレシェ距離(FID)と後方翻訳(BT)BLEUスコアによって評価される。
本研究では,(1)初期条件付け,(2)出力多様性,(3)目標忠実度という3つの独立したレベルにおいて生成された動きを評価することを提案する。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Production (SLP) is the task of generating avatar sign language motion from natural language text. The quality of the generated motion is typically evaluated by a motion-space Fréchet distance (FID) and back-translation (BT) BLEU score on benchmarks such as How2Sign. Both metrics can improve substantially while the underlying generator fails to faithfully represent the sign language gestures. In this work we propose to evaluate the generated motion at three independent levels: (τ1) initial-pose conditioning, (τ2) output diversity, and (τ3) target faithfulness. We compute these as pairwise-distance ratios using latent representations of a frozen motion autoencoder (MoAE). We evaluate 14 SLP model checkpoints on the How2Sign dataset, including a re-implemented Neural Sign Actors (NSA), and show that τ3 faithfulness is never attained, while FID varies by nearly two orders of magnitude and is uncorrelated with faithfulness. We show that on the isolated gloss dataset ASL3DWord favorable τ3 can be attained, hence isolating the size of the sentence-level paired-dataset as the bottleneck.
- Abstract(参考訳): サイン言語生成(SLP)は、自然言語テキストからアバター手話の動きを生成するタスクである。
生成された動きの質は、通常、How2Signのようなベンチマーク上で、モーションスペースフレシェ距離(FID)とバックトランスレーション(BT)BLEUスコアによって評価される。
両方のメトリクスは大幅に改善され、基盤となるジェネレータは手話のジェスチャーを忠実に表現できない。
本研究では, (τ1) 初期条件, (τ2) 出力の多様性, (τ3) 目標忠実度という3つの独立したレベルにおいて生成した動きを評価することを提案する。
凍結運動オートエンコーダ(MoAE)の潜時表現を用いて,これらをペアワイズ距離比として計算する。
再実装されたニューラルサインアクター(NSA)を含む、ハウ2サインデータセット上で14のSLPモデルチェックポイントを評価し、τ3の忠実度は達成されないが、FIDは2桁近く変化しており、忠実度とは無関係であることを示す。
分離したグロスデータセット ASL3DWord において τ3 が達成できることを示し,文レベルのペア化データセットのサイズをボトルネックとして分離する。
関連論文リスト
- M3T: Discrete Multi-Modal Motion Tokens for Sign Language Production [56.171224102170015]
非手動的特徴として, 口づけ, まぶたの上昇, 視線, 頭部運動は文法的に義務付けられ, 手動調音器のみでは回復できない。
既存の3Dプロダクションシステムは、それらを統合するための2つの障壁に直面している。
本稿では,FLAMEのリッチな表現空間とSMPL-X本体を結合したSMPL-FXを提案する。
論文 参考訳(メタデータ) (2026-03-24T18:05:03Z) - SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning [54.232148007248874]
現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。
本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
論文 参考訳(メタデータ) (2026-03-11T06:02:36Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation [29.960223851833785]
我々は手話生成のための意味論的埋め込みに基づく評価指標SiLVERScoreを提案する。
PHOENIX-14T と CSL-Daily のデータセットでは、SiLVERScore は正しいペアとランダムなペアのほぼ完全な識別を実現している。
論文 参考訳(メタデータ) (2025-09-04T00:58:43Z) - MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation [19.197388907510746]
自動手話翻訳の限界を克服するモジュール型フレームワークであるMultiStream-LLMを紹介する。
本手法は, BLEU-4 スコア 23.5 と 73.2% の精度を持つ How2Sign ベンチマークで, ChicagoFSWildPlus のフィンガースペルスデータセット上で, 新たな最先端性を確立した。
論文 参考訳(メタデータ) (2025-08-20T17:44:47Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Video-based Sign Language Recognition without Temporal Segmentation [88.03159640595187]
本稿では,時間分割の事前処理を不要とする新しい連続符号認識フレームワークを提案する。
提案するLS-HANは,映像特徴表現生成のための2ストリーム畳み込みニューラルネットワーク(CNN),意味ギャップブリッジのための潜時空間,潜在空間に基づく認識のための階層的注意ネットワーク(HAN)の3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2018-01-30T17:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。