論文の概要: CSLRConformer: A Data-Centric Conformer Approach for Continuous Arabic Sign Language Recognition on the Isharah Datase
- arxiv url: http://arxiv.org/abs/2508.01791v1
- Date: Sun, 03 Aug 2025 14:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.066879
- Title: CSLRConformer: A Data-Centric Conformer Approach for Continuous Arabic Sign Language Recognition on the Isharah Datase
- Title(参考訳): CSLRコンバータ:Isharahデータを用いた連続アラビア手話認識のためのデータ中心コンバータアプローチ
- Authors: Fatimah Mohamed Emad Elden,
- Abstract要約: 本稿では,連続手話認識システムの能力向上に向けた手話非依存認識の課題に対処する。
データ中心の方法論は、体系的な機能エンジニアリング、堅牢な前処理パイプライン、最適化されたモデルアーキテクチャを中心に提案されている。
このアーキテクチャはコンフォーマーモデルのハイブリッドCNN-Transformer設計に適応し、その能力を利用して局所的な時間的依存関係とグローバルなシーケンスコンテキストをモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Continuous Sign Language Recognition (CSLR) poses substantial technical challenges, including fluid inter-sign transitions, the absence of temporal boundaries, and co-articulation effects. This paper, developed for the MSLR 2025 Workshop Challenge at ICCV 2025, addresses the critical challenge of signer-independent recognition to advance the generalization capabilities of CSLR systems across diverse signers. A data-centric methodology is proposed, centered on systematic feature engineering, a robust preprocessing pipeline, and an optimized model architecture. Key contributions include a principled feature selection process guided by Exploratory Data Analysis (EDA) to isolate communicative keypoints, a rigorous preprocessing pipeline incorporating DBSCAN-based outlier filtering and spatial normalization, and the novel CSLRConformer architecture. This architecture adapts the hybrid CNN-Transformer design of the Conformer model, leveraging its capacity to model local temporal dependencies and global sequence context; a characteristic uniquely suited for the spatio-temporal dynamics of sign language. The proposed methodology achieved a competitive performance, with a Word Error Rate (WER) of 5.60% on the development set and 12.01% on the test set, a result that secured a 3rd place ranking on the official competition platform. This research validates the efficacy of cross-domain architectural adaptation, demonstrating that the Conformer model, originally conceived for speech recognition, can be successfully repurposed to establish a new state-of-the-art performance in keypoint-based CSLR.
- Abstract(参考訳): CSLR(Continuous Sign Language Recognition)の分野は、流体間符号遷移、時間境界の欠如、共調効果など、重要な技術的課題を提起している。
ICCV 2025 における MSLR 2025 Workshop Challenge のために開発された本論文は,CSLR システムの多種多様なシグナ間の一般化能力を向上する上で,シグナに依存しない認識という重要な課題に対処するものである。
データ中心の方法論は、体系的な機能エンジニアリング、堅牢な前処理パイプライン、最適化されたモデルアーキテクチャを中心に提案されている。
主要なコントリビューションには、コミュニケートなキーポイントを分離するためのExploratory Data Analysis (EDA) によって導かれる原則化された特徴選択プロセス、DBSCANベースのアウトリアフィルタリングと空間正規化を組み込んだ厳密な前処理パイプライン、新しいCSLRコンフォーマーアーキテクチャなどがある。
このアーキテクチャはコンフォーマーモデルのハイブリッドCNN-Transformer設計に適応し、その能力を利用して局所的な時間的依存とグローバルなシーケンスコンテキストをモデル化する。
提案手法は,ワードエラー率(WER)が5.60%,テストセットが12.01%,公式競争プラットフォームが3位となったことにより,競争性能が向上した。
本研究はドメイン間アーキテクチャ適応の有効性を検証し、もともと音声認識のために考案されたコンフォーマーモデルが、キーポイントベースのCSLRにおける新しい最先端性能を確立するために、再利用可能であることを示す。
関連論文リスト
- Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [53.16213723669751]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - DESign: Dynamic Context-Aware Convolution and Efficient Subnet Regularization for Continuous Sign Language Recognition [11.879737436401175]
動的コンテキスト認識畳み込み(DCAC)とサブネット正規化接続性時間分類(SR-CTC)を組み合わせた新しいフレームワークであるDESignを提案する。
DCACは、記号を構成するフレーム間のモーションキューを動的にキャプチャし、コンテキスト情報に基づいて畳み込み重みを一意に適応させる。
SR-CTCは、監督トボリューションワークを適用してトレーニングを規則化し、様々なCTCアライメントパスを探索し、オーバーフィッティングを効果的に防止することを奨励する。
論文 参考訳(メタデータ) (2025-07-04T06:56:28Z) - Modeling and Visualization Reasoning for Stakeholders in Education and Industry Integration Systems: Research on Structured Synthetic Dialogue Data Generation Based on NIST Standards [3.5516803380598074]
本研究では,教育産業統合(EII)システムにおける利害関係者の相互作用の構造的複雑さと意味的あいまいさに対処する。
我々は,NIST(National Institute of Standards and Technology)合成データ品質フレームワークに基づく構造モデリングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-20T12:37:43Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling [48.78361527873024]
本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。
本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-09-09T15:12:28Z) - Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining [0.6144680854063939]
音声認識のための最先端コンフォーマーモデルを連続手話認識に適用する。
これは、視覚ベースのタスクにConformerを使用した最初の例である。
教師なし事前訓練は、キュレートされた手話データセット上で行われる。
論文 参考訳(メタデータ) (2024-05-20T13:40:52Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。