論文の概要: A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2508.09372v1
- Date: Tue, 12 Aug 2025 21:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.704433
- Title: A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のためのシグナー不変コンバータとマルチスケールフュージョン変換器
- Authors: Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Fakhri Karray,
- Abstract要約: 連続手話認識は、署名者間の多様性や新しい文構造への一般化の欠如など、複数の課題に直面している。
シグナー独立型コンバータ(SI)問題に対して,畳み込みと多頭部自己注意を組み合わせたシグナー不変コンバータを提案する。
本研究では,Unseen-Sentences (US) タスクのために,新しいデュアルパス時間エンコーダを備えたマルチスケールフュージョントランスを設計した。
提案したコンバータアーキテクチャは,SIチャレンジにおいてワード誤り率(WER)を13.07%,最先端技術から13.53%削減する。
- 参考スコア(独自算出の注目度): 1.3499500088995462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous Sign Language Recognition (CSLR) faces multiple challenges, including significant inter-signer variability and poor generalization to novel sentence structures. Traditional solutions frequently fail to handle these issues efficiently. For overcoming these constraints, we propose a dual-architecture framework. For the Signer-Independent (SI) challenge, we propose a Signer-Invariant Conformer that combines convolutions with multi-head self-attention to learn robust, signer-agnostic representations from pose-based skeletal keypoints. For the Unseen-Sentences (US) task, we designed a Multi-Scale Fusion Transformer with a novel dual-path temporal encoder that captures both fine-grained posture dynamics, enabling the model's ability to comprehend novel grammatical compositions. Experiments on the challenging Isharah-1000 dataset establish a new standard for both CSLR benchmarks. The proposed conformer architecture achieves a Word Error Rate (WER) of 13.07% on the SI challenge, a reduction of 13.53% from the state-of-the-art. On the US task, the transformer model scores a WER of 47.78%, surpassing previous work. In the SignEval 2025 CSLR challenge, our team placed 2nd in the US task and 4th in the SI task, demonstrating the performance of these models. The findings validate our key hypothesis: that developing task-specific networks designed for the particular challenges of CSLR leads to considerable performance improvements and establishes a new baseline for further research. The source code is available at: https://github.com/rezwanh001/MSLR-Pose86K-CSLR-Isharah.
- Abstract(参考訳): CSLR (Continuous Sign Language Recognition) は、符号間変動や新しい文構造への一般化の欠如など、複数の課題に直面している。
従来のソリューションはこれらの問題を効率的に処理できないことが多い。
これらの制約を克服するため、我々は二重アーキテクチャフレームワークを提案する。
そこで, シグナー独立型(SI)課題では, 畳み込みと多頭部自己アテンションを組み合わせたシグナー不変コンバータを提案し, ポーズに基づく骨格キーポイントからロバストでシグナーに依存しない表現を学習する。
In the Unseen-Sentences (US) task, we designed a Multi-Scale Fusion Transformer with a novel dual-path temporal encoder that captures both fine-fine posture dynamics, which the model's ability to understandd novel grammatical compositions。
挑戦的なIsharah-1000データセットの実験では、CSLRベンチマークの新たな標準が確立された。
提案したコンバータアーキテクチャは,SIチャレンジにおいてワード誤り率(WER)を13.07%,最先端技術から13.53%削減する。
米国のタスクでは、トランスフォーマーモデルは47.78%のWERを獲得し、以前の作業を上回った。
SignEval 2025 CSLRチャレンジでは、米国タスクで2位、SIタスクで4位となり、これらのモデルの性能を実証しました。
CSLRの特定の課題のために設計されたタスク固有ネットワークの開発は、大幅な性能向上をもたらし、さらなる研究のための新たなベースラインを確立するという、私たちの重要な仮説を実証する。
ソースコードはhttps://github.com/rezwanh001/MSLR-Pose86K-CSLR-Isharahで公開されている。
関連論文リスト
- Small transformer architectures for task switching [2.7195102129095003]
注意に基づくアーキテクチャが従来のアプローチより優れていると考えるのは簡単ではない。
標準変圧器は基本的タスク切替参照モデルでは解けないことを示す。
本研究では, トランス, 長期記憶再帰ネットワーク (LSTM) , 平板多層パーセプトロン (MLP) が類似しているが, 予測精度は緩やかであることを示す。
論文 参考訳(メタデータ) (2025-08-06T14:01:05Z) - CSLRConformer: A Data-Centric Conformer Approach for Continuous Arabic Sign Language Recognition on the Isharah Datase [0.0]
本稿では,連続手話認識システムの能力向上に向けた手話非依存認識の課題に対処する。
データ中心の方法論は、体系的な機能エンジニアリング、堅牢な前処理パイプライン、最適化されたモデルアーキテクチャを中心に提案されている。
このアーキテクチャはコンフォーマーモデルのハイブリッドCNN-Transformer設計に適応し、その能力を利用して局所的な時間的依存関係とグローバルなシーケンスコンテキストをモデル化する。
論文 参考訳(メタデータ) (2025-08-03T14:58:50Z) - Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition [16.68658893305642]
手書き数学的表現認識(HMER)は、光学文字認識(OCR)における永続的な課題である
アーキテクチャを変更することなく,HMERタスクの視覚言語モデルを完全に微調整するUni-MuMERを提案する。
構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
論文 参考訳(メタデータ) (2025-05-29T15:41:00Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Relaxed Attention for Transformer Models [29.896876421216373]
本稿では,注意重みの平滑化を簡易かつ容易に行う,リラックスした注意を探索する。
エンコーダの自己注意層に適用した場合,注意の緩和が正規化をもたらすことを示す。
我々は、最近のベンチマーク手法と組み合わせて、いくつかのタスクにまたがって注意を緩めたことの利点を実証する。
論文 参考訳(メタデータ) (2022-09-20T14:10:28Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。