論文の概要: Logos as a Well-Tempered Pre-train for Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2505.10481v1
- Date: Thu, 15 May 2025 16:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.419572
- Title: Logos as a Well-Tempered Pre-train for Sign Language Recognition
- Title(参考訳): 手話認識のためのよく温められた事前訓練としてのログ
- Authors: Ilya Ovodov, Petr Surovtsev, Karina Kvanchiani, Alexander Kapitanov, Alexander Nagaev,
- Abstract要約: 本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
- 参考スコア(独自算出の注目度): 75.42794328290088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines two aspects of the isolated sign language recognition (ISLR) task. First, despite the availability of a number of datasets, the amount of data for most individual sign languages is limited. It poses the challenge of cross-language ISLR model training, including transfer learning. Second, similar signs can have different semantic meanings. It leads to ambiguity in dataset labeling and raises the question of the best policy for annotating such signs. To address these issues, this study presents Logos, a novel Russian Sign Language (RSL) dataset, the most extensive ISLR dataset by the number of signers and one of the largest available datasets while also the largest RSL dataset in size and vocabulary. It is shown that a model, pre-trained on the Logos dataset can be used as a universal encoder for other language SLR tasks, including few-shot learning. We explore cross-language transfer learning approaches and find that joint training using multiple classification heads benefits accuracy for the target lowresource datasets the most. The key feature of the Logos dataset is explicitly annotated visually similar sign groups. We show that explicitly labeling visually similar signs improves trained model quality as a visual encoder for downstream tasks. Based on the proposed contributions, we outperform current state-of-the-art results for the WLASL dataset and get competitive results for the AUTSL dataset, with a single stream model processing solely RGB video. The source code, dataset, and pre-trained models are publicly available.
- Abstract(参考訳): 本稿では,ISLRタスクの2つの側面について検討する。
まず、多くのデータセットが利用可能であるにもかかわらず、ほとんどの手話言語でのデータ量は限られている。
トランスファーラーニングを含む多言語ISLRモデルトレーニングの課題となる。
第二に、類似の記号は意味の異なる意味を持つことがある。
これはデータセットのラベル付けの曖昧さをもたらし、このようなサインを注釈付けするための最良のポリシーの疑問を提起する。
これらの問題に対処するため、ロシア手話(RSL)データセットであるLogosは、署名者数による最も広範なISLRデータセットであり、最大規模のRSLデータセットであると同時に、サイズと語彙において最大のRSLデータセットでもある。
Logosデータセットに事前トレーニングされたモデルが,数ショット学習を含む他の言語SLRタスクの共通エンコーダとして使用できることを示す。
言語間移動学習のアプローチについて検討し、複数の分類ヘッドを用いた共同学習が、ターゲットとする低リソースデータセットの精度を最大化することを見出した。
Logosデータセットの重要な機能は、明示的に注釈付けされた視覚的に類似したサイングループである。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
提案したコントリビューションに基づいて、WLASLデータセットの最先端結果より優れ、AUTSLデータセットの競合結果が得られ、単一のストリームモデル処理がRGBビデオのみである。
ソースコード、データセット、事前トレーニングされたモデルが公開されている。
関連論文リスト
- Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets [2.512406961007489]
時間グラフ畳み込みに基づく手話認識手法を用いて5つの教師あり移動学習手法を評価する。
特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-21T16:36:40Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。