論文の概要: SL-SLR: Self-Supervised Representation Learning for Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2509.05188v1
- Date: Fri, 05 Sep 2025 15:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.634305
- Title: SL-SLR: Self-Supervised Representation Learning for Sign Language Recognition
- Title(参考訳): SL-SLR:手話認識のための自己教師付き表現学習
- Authors: Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay,
- Abstract要約: 手話認識(SLR)は、ビデオ中のサインを特定することを目的とした機械学習タスクである。
SLRでは、特定の部分だけが、その認識に本当に役立つ情報を提供する。
本稿では,SLRの有意義な表現を学習するための自己教師型学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5872014229110214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language recognition (SLR) is a machine learning task aiming to identify signs in videos. Due to the scarcity of annotated data, unsupervised methods like contrastive learning have become promising in this field. They learn meaningful representations by pulling positive pairs (two augmented versions of the same instance) closer and pushing negative pairs (different from the positive pairs) apart. In SLR, in a sign video, only certain parts provide information that is truly useful for its recognition. Applying contrastive methods to SLR raises two issues: (i) contrastive learning methods treat all parts of a video in the same way, without taking into account the relevance of certain parts over others; (ii) shared movements between different signs make negative pairs highly similar, complicating sign discrimination. These issues lead to learning non-discriminative features for sign recognition and poor results in downstream tasks. In response, this paper proposes a self-supervised learning framework designed to learn meaningful representations for SLR. This framework consists of two key components designed to work together: (i) a new self-supervised approach with free-negative pairs; (ii) a new data augmentation technique. This approach shows a considerable gain in accuracy compared to several contrastive and self-supervised methods, across linear evaluation, semi-supervised learning, and transferability between sign languages.
- Abstract(参考訳): 手話認識(SLR)は、ビデオ中のサインを特定することを目的とした機械学習タスクである。
注釈付きデータの不足により、この分野ではコントラスト学習のような教師なしの手法が有望になっている。
彼らは正のペア(同じインスタンスの2つの拡張バージョン)を近付け、負のペア(正のペアと異なる)を分離することで有意義な表現を学ぶ。
SLRでは、サインビデオでは、特定の部分だけが、その認識に本当に役立つ情報を提供する。
対照的な手法をSLRに適用することは2つの問題を提起する。
一 ビデオのすべての部分を、他よりも特定の部分の関連性を考慮せずに、同様の方法で扱うこと。
(二)異なる記号間の共有運動は、負のペアを非常によく似ており、符号識別を複雑にしている。
これらの課題は、下流のタスクにおいて、手話認識の非差別的な特徴を学習することにつながる。
そこで本稿では,SLRにおける意味表現の学習を目的とした自己教師型学習フレームワークを提案する。
このフレームワークは、2つの主要なコンポーネントで構成されている。
(i)自由負対を持つ新しい自己監督的アプローチ
(ii)新しいデータ拡張手法。
このアプローチは, 線形評価, 半教師付き学習, 手話間の伝達可能性など, コントラスト的, 自己指導的手法と比較して, 精度が著しく向上したことを示す。
関連論文リスト
- SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition [2.409285779772107]
手話認識システムは手話のジェスチャーを認識し、それを音声言語に翻訳することを目的としている。
SLRの主な課題の1つは、注釈付きデータセットの不足である。
本研究では, 擬似ラベル法を用いたSLRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-23T11:59:52Z) - Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations [7.7149881834358345]
マルチラベル認識(MLR)における肯定的・否定的学習の効果について検討する。
我々はPositiveCoOpとNegativeCoOpを導入し、1つのプロンプトだけがVLMガイダンスで学習され、もう1つは埋め込みベクトルに置き換えられる。
我々は、負のプロンプトがMLR性能を低下させ、正のプロンプトのみを学習し、学習された負の埋め込みと組み合わせることで、二重のプロンプト学習アプローチより優れていることを観察した。
論文 参考訳(メタデータ) (2024-09-12T20:02:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Rethinking Robust Contrastive Learning from the Adversarial Perspective [2.3333090554192615]
標準学習ネットワークでは,敵とクリーンな表現の相違が顕著である。
敵の訓練は、これらの格差を緩和し、普遍的な集合に対する表現の収束を促進する。
論文 参考訳(メタデータ) (2023-02-05T22:43:50Z) - Non-contrastive representation learning for intervals from well logs [58.70164460091879]
石油・ガス産業における表現学習問題は、ログデータに基づく表現を一定間隔で提供するモデルを構築することを目的としている。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
論文 参考訳(メタデータ) (2022-09-28T13:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。