論文の概要: Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints
- arxiv url: http://arxiv.org/abs/2603.09213v1
- Date: Tue, 10 Mar 2026 05:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.057591
- Title: Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints
- Title(参考訳): 静的手指キーポイントを用いた多言語手話認識のための幾何学的メトリクス学習
- Authors: Chayanin Chamachot, Kanokphan Lertniponphan,
- Abstract要約: データリッチなソース言語で事前トレーニングされた言語間の数ショット転送は、スケーラブルな代替手段を提供する。
コンパクトな20次元交叉角記述子を中心にした幾何認識型距離学習フレームワークを提案する。
これらの角度はSO(3)の回転、変換、等方スケーリングと不変であり、データセット間のシフトの主源を排除している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign language recognition (SLR) systems typically require large labeled corpora for each language, yet the majority of the world's 300+ sign languages lack sufficient annotated data. Cross-lingual few-shot transfer, pretraining on a data-rich source language and adapting with only a handful of target-language examples, offers a scalable alternative, but conventional coordinate-based keypoint representations are susceptible to domain shift arising from differences in camera viewpoint, hand scale, and recording conditions. This shift is particularly detrimental in the few-shot regime, where class prototypes estimated from only K examples are highly sensitive to extrinsic variance. We propose a geometry-aware metric-learning framework centered on a compact 20-dimensional inter-joint angle descriptor derived from MediaPipe static hand keypoints. These angles are invariant to SO(3) rotation, translation, and isotropic scaling, eliminating the dominant sources of cross-dataset shift and yielding tighter, more stable class prototypes. Evaluated on four fingerspelling alphabets spanning typologically diverse sign languages, ASL, LIBRAS, Arabic Sign Language, and Thai Sign Language, the proposed angle features improve over normalized-coordinate baselines by up to 25 percentage points within-domain and enable frozen cross-lingual transfer that frequently exceeds within-domain accuracy, using a lightweight MLP encoder with about 10^5 parameters. These findings demonstrate that invariant hand-geometry descriptors provide a portable and effective foundation for cross-lingual few-shot SLR in low-resource settings.
- Abstract(参考訳): 署名言語認識(SLR)システムは通常、各言語に対して大きなラベル付きコーパスを必要とするが、世界の300以上の手話言語の大半は十分な注釈付きデータを持っていない。
データリッチなソース言語で事前訓練し、少数のターゲット言語例でのみ適応した、言語間数ショット転送は、スケーラブルな代替手段を提供するが、従来の座標ベースのキーポイント表現は、カメラの視点、手の大きさ、記録条件の違いから生じるドメインシフトの影響を受けやすい。
このシフトは、K例のみから推定されるクラスプロトタイプが外在的分散に非常に敏感である、数発のシステムにおいて特に有害である。
本稿では,MediaPipeの静的キーポイントから導かれる20次元の接合角記述子を中心にした幾何学的距離学習フレームワークを提案する。
これらの角度はSO(3)の回転、変換、等方スケーリングに不変であり、データセット間のシフトの主源を排除し、より厳密で安定したクラスのプロトタイプを生成する。
ASL, LIBRAS, アラビア手話, タイ手話にまたがる4つのフィンガースペル文字で評価し, 提案したアングル特徴は, 正規化されたコーディネートベースラインよりも最大25ポイント向上し, 10^5パラメータの軽量MPPエンコーダを用いて, ドメイン内精度を頻繁に上回る凍結した言語間移動を可能にする。
これらの結果から,手形状の不変記述子は,低リソース環境下での多言語間数ショットSLRの携帯的かつ効果的な基盤となることが示唆された。
関連論文リスト
- Multilinguality as Sense Adaptation [24.548610248136352]
SENSE-based Symmetric Interlingual Alignment (SENSIA)
SENse-based Symmetric Interlingual Alignment (SENSIA)について紹介する。
これは、ある言語から別の言語へのバックパック言語モデルへの適応であり、並列データに対する感覚レベルの混合とコンテキスト表現を明確に調整する。
論文 参考訳(メタデータ) (2026-01-15T11:44:01Z) - PolyLingua: Margin-based Inter-class Transformer for Robust Cross-domain Language Detection [6.237314351305131]
PolyLinguaは、ドメイン内言語検出ときめ細かい言語分類のための軽量なTransformerベースのモデルである。
インスタンスレベルの分離とクラスレベルのアライメントとアダプティブマージンを組み合わせた2段階のコントラスト学習フレームワークを採用している。
99.25% F1と98.15% F1をそれぞれ達成し、Sonnet 3.5を10倍のパラメータで上回っている。
論文 参考訳(メタデータ) (2025-12-09T00:39:18Z) - Language steering in latent space to mitigate unintended code-switching [1.1330938617817454]
大きな言語モデル(LLM)は意図しないコードスイッチングを示し、下流タスクの信頼性を低下させる。
並列翻訳におけるPCAによる言語方向を識別する軽量な推論時間法である潜在空間言語ステアリングを提案する。
提案手法は,計算オーバーヘッドの少ないセマンティクスを保ちながら,コードスイッチングを緩和する。
論文 参考訳(メタデータ) (2025-10-11T19:49:38Z) - Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。