論文の概要: KAN Text to Vision? The Exploration of Kolmogorov-Arnold Networks for Multi-Scale Sequence-Based Pose Animation from Sign Language Notation
- arxiv url: http://arxiv.org/abs/2605.09572v1
- Date: Sun, 10 May 2026 14:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.316753
- Title: KAN Text to Vision? The Exploration of Kolmogorov-Arnold Networks for Multi-Scale Sequence-Based Pose Animation from Sign Language Notation
- Title(参考訳): Kan Text to Vision? Kolmogorov-Arnold Networks for Multi-Scale Sequence-based Pose Animation from Sign Language Notation (英語)
- Authors: Guanyi Du, Lintao Wang, Kun Hu, Ziyang Wang,
- Abstract要約: 本稿では,HamNoSys表記を2次元人間のポーズ配列に変換するマルチスケールシーケンス生成器kanMultiSignを提案する。
ポーランド語、ドイツ語、ギリシャ語、フランス語の記号言語にまたがる公共コーパスの実験では、動的時間ワープに基づく共同エラーが一貫した減少を示している。
制御された短縮は、kanベースの変種は、競合性能を維持しながらパラメータ数を著しく減少させることを示している。
- 参考スコア(独自算出の注目度): 31.20439242447667
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign language production from symbolic notation offers a scalable route to accessible sign animation. We present KANMultiSign, a multi-scale sequence generator that translates HamNoSys notation into two-dimensional human pose sequences. Our framework makes two complementary contributions. First, we introduce a coarse-to-fine generation strategy with multi-scale supervision: the model is first guided by an intermediate body--hand--face scaffold to encourage global structural coherence, and then refines fine-grained hand articulation to improve finger-level detail. Second, we investigate integrating Kolmogorov--Arnold Network modules into a Transformer backbone, using learnable univariate function primitives to model the highly non-linear mapping from discrete phonological symbols to continuous body kinematics with a compact parameterization. Experiments on multiple public corpora spanning Polish, German, Greek, and French sign languages show consistent reductions in dynamic time warping based joint error compared with a strong notation-to-pose baseline, while using substantially fewer parameters. Controlled ablations further indicate that KAN-based variants substantially reduce parameter count while maintaining competitive performance when coupled with multi-scale supervision, rather than serving as the main driver of accuracy gains. These findings position multi-scale supervision as the key mechanism for improving notation-conditioned pose generation, with KAN offering a compact alternative for efficient modeling. Our code will be publicly available.
- Abstract(参考訳): 記号表記による手話生成は、手話アニメーションへのスケーラブルな経路を提供する。
本稿では,HamNoSys表記を2次元人間のポーズ配列に変換するマルチスケールシーケンス生成器kanMultiSignを提案する。
私たちのフレームワークは2つの補完的な貢献をします。
まず,大域的な構造的コヒーレンスを促進するための中間体-手-顔の足場によってモデルが導かれ,さらに細粒度の手の関節を洗練し,指の高さの細部を改良する。
次に,Kolmogorov-Arnold NetworkモジュールをTransformerのバックボーンに統合し,学習可能な単変数関数プリミティブを用いて離散音韻記号から連続体運動学への高非線形マッピングをコンパクトなパラメータ化でモデル化する。
ポーランド語、ドイツ語、ギリシャ語、フランス語の記号言語にまたがる公共コーパスの実験では、強い表記と目的のベースラインに比べて、動的時間ワープに基づく関節エラーが一貫した減少を示し、パラメータは極めて少ない。
制御アブレーションは、精度向上の主要因として機能するのではなく、マルチスケールの監視と組み合わせた場合の競合性能を維持しつつ、パラメータカウントを大幅に削減することを示す。
これらの結果から,Kanは効率的なモデリングのためのコンパクトな代替手段として,表記条件付きポーズ生成を改善するためのキーメカニズムとして,マルチスケールの監視を位置づけた。
私たちのコードは公開されます。
関連論文リスト
- SignDPO: Multi-level Direct Preference Optimisation for Skeleton-based Gloss-free Sign Language Translation [52.752934028506274]
我々は,新しい多レベル直接参照最適化フレームワークSignDPOを提案する。
SignDPOは、最先端のGloss-freeメソッドよりも一貫して優れていることを示す。
以上の結果から,多レベル選好アライメントは,高エントロピーな骨格軌道と個別言語意味論のギャップを埋める強力なパラダイムであることが示唆された。
論文 参考訳(メタデータ) (2026-04-20T09:59:18Z) - SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning [54.232148007248874]
現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。
本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
論文 参考訳(メタデータ) (2026-03-11T06:02:36Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation [19.197388907510746]
自動手話翻訳の限界を克服するモジュール型フレームワークであるMultiStream-LLMを紹介する。
本手法は, BLEU-4 スコア 23.5 と 73.2% の精度を持つ How2Sign ベンチマークで, ChicagoFSWildPlus のフィンガースペルスデータセット上で, 新たな最先端性を確立した。
論文 参考訳(メタデータ) (2025-08-20T17:44:47Z) - Stack Transformer Based Spatial-Temporal Attention Model for Dynamic Sign Language and Fingerspelling Recognition [1.949837893170278]
手話に基づく手話認識は、聴覚障害者と非聴覚障害者の間に重要な橋渡しとなる。
本稿では,新しいトランスフォーマーアーキテクチャであるSSTAN(Sequential Spatio-Temporal Attention Network)を提案する。
多様な大規模データセットに関する広範な実験を通じて、我々のモデルを検証した。
論文 参考訳(メタデータ) (2025-03-21T04:57:18Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。