論文の概要: State Space Models are Effective Sign Language Learners: Exploiting Phonological Compositionality for Vocabulary-Scale Recognition
- arxiv url: http://arxiv.org/abs/2604.08761v1
- Date: Thu, 09 Apr 2026 20:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.5798
- Title: State Space Models are Effective Sign Language Learners: Exploiting Phonological Compositionality for Vocabulary-Scale Recognition
- Title(参考訳): 状態空間モデルと手話学習 : 語彙尺度認識のための音韻構成性の爆発
- Authors: Bryan Cheng, Austin Jin, Jasper Zhang,
- Abstract要約: 我々は、PHONSSMを導入し、解剖学的に座屈したグラフの注意による音韻的分解、部分空間への明示的な分解、少数ショット転送を可能にする分類を導入した。
PHONSSMは史上最大のASLデータセット(5,565の符号)の骨格データのみを使用して、WLASL2000(+18.4pp over skeleton SOTA)で72.1%を獲得し、ビデオ入力なしでほとんどのRGBメソッドを超える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language recognition suffers from catastrophic scaling failure: models achieving high accuracy on small vocabularies collapse at realistic sizes. Existing architectures treat signs as atomic visual patterns, learning flat representations that cannot exploit the compositional structure of sign languages-systematically organized from discrete phonological parameters (handshape, location, movement, orientation) reused across the vocabulary. We introduce PHONSSM, enforcing phonological decomposition through anatomically-grounded graph attention, explicit factorization into orthogonal subspaces, and prototypical classification enabling few-shot transfer. Using skeleton data alone on the largest ASL dataset ever assembled (5,565 signs), PHONSSM achieves 72.1% on WLASL2000 (+18.4pp over skeleton SOTA), surpassing most RGB methods without video input. Gains are most dramatic in the few-shot regime (+225% relative), and the model transfers zero-shot to ASL Citizen, exceeding supervised RGB baselines. The vocabulary scaling bottleneck is fundamentally a representation learning problem, solvable through compositional inductive biases mirroring linguistic structure.
- Abstract(参考訳): 記号言語認識は、破滅的なスケーリングの失敗に悩まされる: 小さな語彙で高い精度を達成するモデルは、現実的なサイズで崩壊する。
既存のアーキテクチャは、記号を原子的な視覚パターンとして扱い、記号言語の構成構造を活用できない平らな表現を学習する。
我々はPHONSSMを導入し、解剖学的に座屈したグラフによる音韻分解、直交部分空間への明示的な分解、ほとんどショット転送が可能な原型分類を導入した。
PHONSSMは史上最大のASLデータセット(5,565の符号)の骨格データのみを使用して、WLASL2000(+18.4pp over skeleton SOTA)で72.1%を獲得し、ビデオ入力なしでほとんどのRGBメソッドを超える。
ゲインは数ショット(+225%の相対)で最も劇的であり、0ショットは教師付きRGBベースラインを超えたASL Citizenに転送される。
語彙スケーリングのボトルネックは、基本的には表現学習の問題であり、言語構造を反映する構成的帰納的バイアスによって解決できる。
関連論文リスト
- Sigma: Semantically Informative Pre-training for Skeleton-based Sign Language Understanding [47.469519895247366]
事前学習は手話理解タスクにおける伝達可能な特徴の学習に有効であることが証明されている。
1)視覚的特徴と言語的文脈との深い相互作用を促進し,視覚的特徴と言語的文脈との深い相互作用を促進するサイン・アウェア・アーリー・フュージョン・メカニズム,2)異なるモダリティから異なるレベルの特徴のマッチングを共同で最大化し,詳細な詳細と高レベルのセマンティックな関係を効果的に把握する階層的アライメント学習戦略,3)コントラスト的学習,テキストマッチング,言語モデリングを組み合わせた統合事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-25T14:28:34Z) - Hyperbolic Large Language Models [7.483401973996036]
大規模言語モデル(LLM)は目覚ましい成功を収め、様々なタスクで優れた性能を示した。
しかし、現実の多くのデータは、タンパク質ネットワーク、輸送ネットワーク、金融ネットワーク、脳ネットワーク、言語構造や構文木など、非ユークリッドの潜在階層構造を示す。
本稿では,表現空間として双曲幾何学を活用し,意味表現学習とマルチスケール推論を強化するLLMの最近の進歩を包括的かつ文脈的に表現する。
論文 参考訳(メタデータ) (2025-09-06T15:56:46Z) - Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.85977999591524]
視覚言語モデルは、画像領域と大規模トレーニングデータの単語を暗黙的に関連付けることを学習する。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
階層的構造化学習(HIST)は、追加の人間のアノテーションを使わずに、空間的視覚言語アライメントを強化する。
論文 参考訳(メタデータ) (2024-12-11T05:36:18Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition [0.20075899678041528]
本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。
このデータセットは、2002年に20人(男性10人、女性10人)の聴覚障害者が記録した聴覚障害者コミュニティで日常的に使われる一般的な単語をカバーしている。
人体上半身の骨格グラフを用いて,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T11:48:36Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Video-based Sign Language Recognition without Temporal Segmentation [88.03159640595187]
本稿では,時間分割の事前処理を不要とする新しい連続符号認識フレームワークを提案する。
提案するLS-HANは,映像特徴表現生成のための2ストリーム畳み込みニューラルネットワーク(CNN),意味ギャップブリッジのための潜時空間,潜在空間に基づく認識のための階層的注意ネットワーク(HAN)の3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2018-01-30T17:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。