論文の概要: A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2508.09372v1
- Date: Tue, 12 Aug 2025 21:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.704433
- Title: A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のためのシグナー不変コンバータとマルチスケールフュージョン変換器
- Authors: Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Fakhri Karray,
- Abstract要約: 連続手話認識は、署名者間の多様性や新しい文構造への一般化の欠如など、複数の課題に直面している。
シグナー独立型コンバータ(SI)問題に対して,畳み込みと多頭部自己注意を組み合わせたシグナー不変コンバータを提案する。
本研究では,Unseen-Sentences (US) タスクのために,新しいデュアルパス時間エンコーダを備えたマルチスケールフュージョントランスを設計した。
提案したコンバータアーキテクチャは,SIチャレンジにおいてワード誤り率(WER)を13.07%,最先端技術から13.53%削減する。
- 参考スコア(独自算出の注目度): 1.3499500088995462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous Sign Language Recognition (CSLR) faces multiple challenges, including significant inter-signer variability and poor generalization to novel sentence structures. Traditional solutions frequently fail to handle these issues efficiently. For overcoming these constraints, we propose a dual-architecture framework. For the Signer-Independent (SI) challenge, we propose a Signer-Invariant Conformer that combines convolutions with multi-head self-attention to learn robust, signer-agnostic representations from pose-based skeletal keypoints. For the Unseen-Sentences (US) task, we designed a Multi-Scale Fusion Transformer with a novel dual-path temporal encoder that captures both fine-grained posture dynamics, enabling the model's ability to comprehend novel grammatical compositions. Experiments on the challenging Isharah-1000 dataset establish a new standard for both CSLR benchmarks. The proposed conformer architecture achieves a Word Error Rate (WER) of 13.07% on the SI challenge, a reduction of 13.53% from the state-of-the-art. On the US task, the transformer model scores a WER of 47.78%, surpassing previous work. In the SignEval 2025 CSLR challenge, our team placed 2nd in the US task and 4th in the SI task, demonstrating the performance of these models. The findings validate our key hypothesis: that developing task-specific networks designed for the particular challenges of CSLR leads to considerable performance improvements and establishes a new baseline for further research. The source code is available at: https://github.com/rezwanh001/MSLR-Pose86K-CSLR-Isharah.
- Abstract(参考訳): CSLR (Continuous Sign Language Recognition) は、符号間変動や新しい文構造への一般化の欠如など、複数の課題に直面している。
従来のソリューションはこれらの問題を効率的に処理できないことが多い。
これらの制約を克服するため、我々は二重アーキテクチャフレームワークを提案する。
そこで, シグナー独立型(SI)課題では, 畳み込みと多頭部自己アテンションを組み合わせたシグナー不変コンバータを提案し, ポーズに基づく骨格キーポイントからロバストでシグナーに依存しない表現を学習する。
In the Unseen-Sentences (US) task, we designed a Multi-Scale Fusion Transformer with a novel dual-path temporal encoder that captures both fine-fine posture dynamics, which the model's ability to understandd novel grammatical compositions。
挑戦的なIsharah-1000データセットの実験では、CSLRベンチマークの新たな標準が確立された。
提案したコンバータアーキテクチャは,SIチャレンジにおいてワード誤り率(WER)を13.07%,最先端技術から13.53%削減する。
米国のタスクでは、トランスフォーマーモデルは47.78%のWERを獲得し、以前の作業を上回った。
SignEval 2025 CSLRチャレンジでは、米国タスクで2位、SIタスクで4位となり、これらのモデルの性能を実証しました。
CSLRの特定の課題のために設計されたタスク固有ネットワークの開発は、大幅な性能向上をもたらし、さらなる研究のための新たなベースラインを確立するという、私たちの重要な仮説を実証する。
ソースコードはhttps://github.com/rezwanh001/MSLR-Pose86K-CSLR-Isharahで公開されている。
関連論文リスト
- UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model [50.68870074090426]
我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:07:19Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - Reasoning-Aware Prompt Orchestration: A Foundation Model for Multi-Agent Language Model Coordination [0.0]
複数の特殊エージェント間の推論を強化する動的プロンプトオーケストレーションのための理論的基盤となるフレームワークを提案する。
このフレームワークは,エージェント移行時の論理的一貫性の維持,推論対応の迅速な適応,分散推論のスケーラブルな調整,という3つの課題に対処する。
1000件の合成マルチエージェント会話実験の結果,推論遅延の42%低減,ROUGE-Lスコアによる論理的整合性の23%改善,文脈損失のないタスク完了の89%の成功率が確認された。
論文 参考訳(メタデータ) (2025-09-30T22:33:01Z) - MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation [19.197388907510746]
自動手話翻訳の限界を克服するモジュール型フレームワークであるMultiStream-LLMを紹介する。
本手法は, BLEU-4 スコア 23.5 と 73.2% の精度を持つ How2Sign ベンチマークで, ChicagoFSWildPlus のフィンガースペルスデータセット上で, 新たな最先端性を確立した。
論文 参考訳(メタデータ) (2025-08-20T17:44:47Z) - Small transformer architectures for task switching [2.7195102129095003]
注意に基づくアーキテクチャが従来のアプローチより優れていると考えるのは簡単ではない。
標準変圧器は基本的タスク切替参照モデルでは解けないことを示す。
本研究では, トランス, 長期記憶再帰ネットワーク (LSTM) , 平板多層パーセプトロン (MLP) が類似しているが, 予測精度は緩やかであることを示す。
論文 参考訳(メタデータ) (2025-08-06T14:01:05Z) - CSLRConformer: A Data-Centric Conformer Approach for Continuous Arabic Sign Language Recognition on the Isharah Datase [0.0]
本稿では,連続手話認識システムの能力向上に向けた手話非依存認識の課題に対処する。
データ中心の方法論は、体系的な機能エンジニアリング、堅牢な前処理パイプライン、最適化されたモデルアーキテクチャを中心に提案されている。
このアーキテクチャはコンフォーマーモデルのハイブリッドCNN-Transformer設計に適応し、その能力を利用して局所的な時間的依存関係とグローバルなシーケンスコンテキストをモデル化する。
論文 参考訳(メタデータ) (2025-08-03T14:58:50Z) - Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition [16.68658893305642]
手書き数学的表現認識(HMER)は、光学文字認識(OCR)における永続的な課題である
アーキテクチャを変更することなく,HMERタスクの視覚言語モデルを完全に微調整するUni-MuMERを提案する。
構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
論文 参考訳(メタデータ) (2025-05-29T15:41:00Z) - Stack Transformer Based Spatial-Temporal Attention Model for Dynamic Sign Language and Fingerspelling Recognition [1.949837893170278]
手話に基づく手話認識は、聴覚障害者と非聴覚障害者の間に重要な橋渡しとなる。
本稿では,新しいトランスフォーマーアーキテクチャであるSSTAN(Sequential Spatio-Temporal Attention Network)を提案する。
多様な大規模データセットに関する広範な実験を通じて、我々のモデルを検証した。
論文 参考訳(メタデータ) (2025-03-21T04:57:18Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Relaxed Attention for Transformer Models [29.896876421216373]
本稿では,注意重みの平滑化を簡易かつ容易に行う,リラックスした注意を探索する。
エンコーダの自己注意層に適用した場合,注意の緩和が正規化をもたらすことを示す。
我々は、最近のベンチマーク手法と組み合わせて、いくつかのタスクにまたがって注意を緩めたことの利点を実証する。
論文 参考訳(メタデータ) (2022-09-20T14:10:28Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。