論文の概要: Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation
- arxiv url: http://arxiv.org/abs/2506.00129v1
- Date: Fri, 30 May 2025 18:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.153689
- Title: Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation
- Title(参考訳): Geo-Sign: 幾何学的手話翻訳のための双曲的コントラスト正規化
- Authors: Edward Fish, Richard Bowden,
- Abstract要約: ジオサイン(Geo-Sign)は、双曲幾何学の特性を利用して手話キネマティクスに固有の階層構造をモデル化する手法である。
本稿では,双曲射影層,重み付きFr'echet平均アグリゲーションスキーム,および双曲空間で直接動作する幾何学的コントラスト損失を導入する。
これらのコンポーネントは正規化関数としてエンドツーエンドの翻訳フレームワークに統合され、言語モデル内の表現を強化する。
- 参考スコア(独自算出の注目度): 32.10033901054049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in Sign Language Translation (SLT) has focussed primarily on improving the representational capacity of large language models to incorporate Sign Language features. This work explores an alternative direction: enhancing the geometric properties of skeletal representations themselves. We propose Geo-Sign, a method that leverages the properties of hyperbolic geometry to model the hierarchical structure inherent in sign language kinematics. By projecting skeletal features derived from Spatio-Temporal Graph Convolutional Networks (ST-GCNs) into the Poincar\'e ball model, we aim to create more discriminative embeddings, particularly for fine-grained motions like finger articulations. We introduce a hyperbolic projection layer, a weighted Fr\'echet mean aggregation scheme, and a geometric contrastive loss operating directly in hyperbolic space. These components are integrated into an end-to-end translation framework as a regularisation function, to enhance the representations within the language model. This work demonstrates the potential of hyperbolic geometry to improve skeletal representations for Sign Language Translation, improving on SOTA RGB methods while preserving privacy and improving computational efficiency. Code available here: https://github.com/ed-fish/geo-sign.
- Abstract(参考訳): 署名言語翻訳(SLT)の最近の進歩は、手話機能を統合するための大きな言語モデルの表現能力の向上に重点を置いている。
この研究は、骨格表現自体の幾何学的性質の強化という別の方向を探求する。
我々は,手話キネマティクスに固有の階層構造をモデル化するために,双曲幾何学の特性を利用するGeo-Signを提案する。
時空間グラフ畳み込みネットワーク(ST-GCN)から派生した骨格的特徴をポアンカーの球体モデルに投影することにより,特に指関節のような微細な運動に対して,より識別的な埋め込みを実現することを目指している。
双曲射影層,重み付きFr'echet平均アグリゲーションスキーム,および双曲空間で直接動作する幾何学的コントラスト損失を導入する。
これらのコンポーネントは正規化関数としてエンドツーエンドの翻訳フレームワークに統合され、言語モデル内の表現を強化する。
本研究は,手話翻訳における骨格表現の改善,SOTA RGB法の改良,プライバシの保護と計算効率の向上を目的とした双曲幾何学の可能性を示す。
コードは、https://github.com/ed-fish/geo-sign.comで入手できる。
関連論文リスト
- Graph Network for Sign Language Tasks [22.71156540352475]
混合グラフの集合として手話列を表すMixSignGraphを紹介する。
LSGモジュールは1フレーム内のフレーム内クロスリージョン特徴の相関関係を学習する。
TSGモジュールは、隣接するフレーム間のフレーム間クロスリージョン機能の相互作用を追跡する。
HSGモジュールはフレームの異なる粒度特徴写像から同じ領域の特徴を集約する。
論文 参考訳(メタデータ) (2025-04-16T12:23:30Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Sign Language Translation with Hierarchical Spatio-TemporalGraph Neural
Network [6.623802929157273]
手話翻訳(SLT)は、手話の視覚的内容から音声言語のテキストを生成する。
本稿では,これらの手話の特徴を階層時間グラフ表現として定式化する。
階層型階層時間グラフニューラルネットワーク(HSTG-NN)と呼ばれる新しいディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-14T07:02:28Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。