論文の概要: Improving Handshape Representations for Sign Language Processing: A Graph Neural Network Approach
- arxiv url: http://arxiv.org/abs/2509.18309v1
- Date: Mon, 22 Sep 2025 18:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.523745
- Title: Improving Handshape Representations for Sign Language Processing: A Graph Neural Network Approach
- Title(参考訳): 手話処理における手話表現の改善--グラフニューラルネットワークによるアプローチ
- Authors: Alessa Carbo, Eric Nalisnick,
- Abstract要約: 静的ハンドシェイプ構成から時間的ダイナミクスを分離する新しいグラフニューラルネットワークを提案する。
本手法は,手形認識において重要な課題に対処するために,解剖学的にインフォームドされたグラフ構造と対照的な学習を組み合わせる。
我々は署名シーケンスにおける構造化ハンドシェイプ認識のための最初のベンチマークを確立し、37のハンドシェイプクラスで46%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.22917707112773592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handshapes serve a fundamental phonological role in signed languages, with American Sign Language employing approximately 50 distinct shapes. However,computational approaches rarely model handshapes explicitly, limiting both recognition accuracy and linguistic analysis.We introduce a novel graph neural network that separates temporal dynamics from static handshape configurations. Our approach combines anatomically-informed graph structures with contrastive learning to address key challenges in handshape recognition, including subtle interclass distinctions and temporal variations. We establish the first benchmark for structured handshape recognition in signing sequences, achieving 46% accuracy across 37 handshape classes (with baseline methods achieving 25%).
- Abstract(参考訳): 手話は署名された言語において基本的な音韻学的な役割を担い、アメリカ手話はおよそ50の異なる形を使っている。
しかし,認識精度と言語解析の両面を制限し,静的な手形構成から時間的ダイナミクスを分離するグラフニューラルネットワークを導入することで,手形を明示的にモデル化することは滅多にない。
我々の手法は、解剖学的にインフォームドされたグラフ構造と対照的な学習を組み合わせることで、微妙なクラス間区別や時間的変動を含む手形認識における重要な課題に対処する。
署名シーケンスにおける構造化ハンドシェイプ認識のための最初のベンチマークを確立し,37のハンドシェイプクラスで46%の精度を実現した(ベースライン法で25%)。
関連論文リスト
- NFR: Neural Feature-Guided Non-Rigid Shape Registration [1.5677990844097902]
私たちの重要な洞察は、ディープラーニングベースの形状マッチングネットワークから学んだニューラルネットワーク機能を、反復的で幾何学的な形状登録パイプラインに組み込むことです。
我々のパイプラインは、厳密でない点クラウドマッチングと部分的な形状マッチングのベンチマークで、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-28T15:08:49Z) - Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。
ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。
その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文 参考訳(メタデータ) (2025-03-05T13:10:07Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Temporal Accumulative Features for Sign Language Recognition [2.3204178451683264]
我々は,孤立した手話のジェスチャーを認識するための,効率的かつ高速なSLR手法を考案した。
また,手形情報や小規模な逐次ニューラルネットワークを用いて,言語サブユニットの累積特徴のモデリングがベースライン分類結果に基づいて改善されることを実証した。
論文 参考訳(メタデータ) (2020-04-02T19:03:40Z) - FineHand: Learning Hand Shapes for American Sign Language Recognition [16.862375555609667]
本稿では,手形状の埋め込みを効果的に学習するためのアプローチを提案する。
手形認識には手動ラベル付き手形と高信頼度予測を組み合わせて深部畳み込みニューラルネットワーク(CNN)を訓練する。
より高品質な手形状モデルが最終映像ジェスチャー分類の精度を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2020-03-04T23:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。