論文の概要: Training Strategies for Isolated Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2412.11553v1
- Date: Mon, 16 Dec 2024 08:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:01.728881
- Title: Training Strategies for Isolated Sign Language Recognition
- Title(参考訳): 孤立手話認識のための学習方略
- Authors: Karina Kvanchiani, Roman Kraynov, Elizaveta Petrova, Petr Surovcev, Aleksandr Nagaev, Alexander Kapitanov,
- Abstract要約: 本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。
構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。
WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
- 参考スコア(独自算出の注目度): 72.27323884094953
- License:
- Abstract: This paper introduces a comprehensive model training pipeline for Isolated Sign Language Recognition (ISLR) designed to accommodate the distinctive characteristics and constraints of the Sign Language (SL) domain. The constructed pipeline incorporates carefully selected image and video augmentations to tackle the challenges of low data quality and varying sign speeds. Including an additional regression head combined with IoU-balanced classification loss enhances the model's awareness of the gesture and simplifies capturing temporal information. Extensive experiments demonstrate that the developed training pipeline easily adapts to different datasets and architectures. Additionally, the ablation study shows that each proposed component expands the potential to consider ISLR task specifics. The presented strategies improve recognition performance on a broad set of ISLR benchmarks. Moreover, we achieved a state-of-the-art result on the WLASL and Slovo benchmarks with 1.63% and 14.12% improvements compared to the previous best solution, respectively.
- Abstract(参考訳): 本稿では,手話認識(ISLR)のための包括的モデル学習パイプラインを提案する。
構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。
追加の回帰ヘッドとIoUのバランスの取れた分類損失が組み合わさって、モデルのジェスチャーに対する意識を高め、時間情報の取得を単純化する。
大規模な実験では、開発したトレーニングパイプラインが、さまざまなデータセットやアーキテクチャに容易に適応できることが示されている。
さらに、アブレーション研究により、提案された各コンポーネントは、ISLRタスク特異性を考える可能性を拡大することが示された。
提案手法は,広範囲のISLRベンチマークにおいて認識性能を向上させる。
さらに,WLASL と Slovo のベンチマークでは,従来のベストソリューションと比較して1.63% と 14.12% の改善が得られた。
関連論文リスト
- IncSAR: A Dual Fusion Incremental Learning Framework for SAR Target Recognition [7.9330990800767385]
破滅的な忘れ方として知られる新しいタスクを学ぶとき、モデルが古い知識を忘れる傾向は、未解決の課題である。
本稿では,SAR目標認識における破滅的忘れを緩和するために,IncSARと呼ばれる漸進的学習フレームワークを提案する。
IncSARはビジョントランスフォーマー(ViT)と、遅延融合戦略によって結合された個々のブランチにカスタム設計の畳み込みニューラルネットワーク(CNN)を備える。
論文 参考訳(メタデータ) (2024-10-08T08:49:47Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - REAL: Representation Enhanced Analytic Learning for Exemplar-free Class-incremental Learning [12.197327462627912]
EFCIL(Exemplar-free class-incremental Learning)のための表現強化分析学習(REAL)を提案する。
REALは、二重ストリームベース事前訓練(DS-BPT)および表現強化蒸留(RED)プロセスを構築し、抽出器の表現を強化する。
本手法は,既存のALベースCILの凍結バックボーンによって引き起こされる未確認データの表現において,識別性が不十分な問題に対処する。
論文 参考訳(メタデータ) (2024-03-20T11:48:10Z) - Self-Supervised Video Transformers for Isolated Sign Language
Recognition [19.72944125318495]
最近導入された4つのトランスフォーマーベースのビデオからの自己教師型学習アプローチと4つの事前学習データレギュレーションについて検討する。
MaskFeatは、ポーズベースおよび教師付きビデオモデルよりもパフォーマンスが優れており、GlossベースのWLASL2000では、トップ1の精度は79.02%である。
論文 参考訳(メタデータ) (2023-09-02T03:00:03Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised
Learning Features in Robust End-to-end Speech Recognition [34.40924909515384]
エンド・ツー・エンド(E2E)ASRモデルにおける様々な融合手法を用いた多様なSSLR組合せの有効性について検討する。
提案した「FeaRLESS学習機能」は,WSJとFearless Steps Challenge(FSC)のコーパスにおいて,機能改善を伴わないシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-30T06:39:40Z) - Multi-Augmentation for Efficient Visual Representation Learning for
Self-supervised Pre-training [1.3733988835863333]
本稿では、パイプライン全体を構築するための様々な拡張ポリシーを網羅的に検索する、自己改善学習のためのマルチ強化(MA-SSRL)を提案する。
MA-SSRLは不変の特徴表現をうまく学習し、自己教師付き事前学習のための効率的で効果的で適応可能なデータ拡張パイプラインを提供する。
論文 参考訳(メタデータ) (2022-05-24T04:18:39Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Adaptive Adversarial Logits Pairing [65.51670200266913]
逆行訓練ソリューションであるAdversarial Logits Pairing (ALP)は、脆弱なものに比べて、高い貢献度を少なくする傾向にある。
これらの観測により,適応型対数対数対数対数対数対数法 (AALP) を設計し,ALPのトレーニングプロセスとトレーニングターゲットを変更する。
AALPは適応的な機能最適化モジュールと Guided Dropout から構成されており、より少ない高コントリビューション機能を体系的に追求する。
論文 参考訳(メタデータ) (2020-05-25T03:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。