論文の概要: DESign: Dynamic Context-Aware Convolution and Efficient Subnet Regularization for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2507.03339v1
- Date: Fri, 04 Jul 2025 06:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.694492
- Title: DESign: Dynamic Context-Aware Convolution and Efficient Subnet Regularization for Continuous Sign Language Recognition
- Title(参考訳): DeSign: 動的コンテキスト認識による畳み込みと連続手話認識のための効率的なサブネット正規化
- Authors: Sheng Liu, Yiheng Yu, Yuan Feng, Min Xu, Zhelun Jin, Yining Jiang, Tiantian Yuan,
- Abstract要約: 動的コンテキスト認識畳み込み(DCAC)とサブネット正規化接続性時間分類(SR-CTC)を組み合わせた新しいフレームワークであるDESignを提案する。
DCACは、記号を構成するフレーム間のモーションキューを動的にキャプチャし、コンテキスト情報に基づいて畳み込み重みを一意に適応させる。
SR-CTCは、監督トボリューションワークを適用してトレーニングを規則化し、様々なCTCアライメントパスを探索し、オーバーフィッティングを効果的に防止することを奨励する。
- 参考スコア(独自算出の注目度): 11.879737436401175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current continuous sign language recognition (CSLR) methods struggle with handling diverse samples. Although dynamic convolutions are ideal for this task, they mainly focus on spatial modeling and fail to capture the temporal dynamics and contextual dependencies. To address this, we propose DESign, a novel framework that incorporates Dynamic Context-Aware Convolution (DCAC) and Subnet Regularization Connectionist Temporal Classification (SR-CTC). DCAC dynamically captures the inter-frame motion cues that constitute signs and uniquely adapts convolutional weights in a fine-grained manner based on contextual information, enabling the model to better generalize across diverse signing behaviors and boost recognition accuracy. Furthermore, we observe that existing methods still rely on only a limited number of frames for parameter updates during training, indicating that CTC learning overfits to a dominant path. To address this, SR-CTC regularizes training by applying supervision to subnetworks, encouraging the model to explore diverse CTC alignment paths and effectively preventing overfitting. A classifier-sharing strategy in SR-CTC further strengthens multi-scale consistency. Notably, SR-CTC introduces no inference overhead and can be seamlessly integrated into existing CSLR models to boost performance. Extensive ablations and visualizations further validate the effectiveness of the proposed methods. Results on mainstream CSLR datasets (i.e., PHOENIX14, PHOENIX14-T, CSL-Daily) demonstrate that DESign achieves state-of-the-art performance.
- Abstract(参考訳): 現在の連続手話認識(CSLR)法は多様なサンプルを扱うのに苦労している。
動的畳み込みは、このタスクには理想的であるが、主に空間モデリングに焦点をあて、時間的ダイナミクスと文脈的依存関係を捉えることに失敗する。
そこで本稿では,動的コンテキスト認識畳み込み(DCAC)とサブネット正規化接続性時間分類(SR-CTC)を組み合わせた新しいフレームワークであるDESignを提案する。
DCACは、記号を構成するフレーム間のモーションキューを動的にキャプチャし、コンテキスト情報に基づいて畳み込み重みをきめ細かな方法で一意に適応し、モデルの様々な署名動作をより良く一般化し、認識精度を高める。
さらに,既存の手法は,トレーニング中のパラメータ更新に限られたフレームしか依存していないことが確認され,CTC学習が支配的な経路に過度に適合していることが示唆された。
これを解決するため、SR-CTCはサブネットワークに監督を適用してトレーニングを規則化し、多様なCTCアライメントパスを探索し、オーバーフィッティングを効果的に防止することを奨励する。
SR-CTCの分類器共有戦略は、マルチスケールの一貫性をさらに強化する。
特に、SR-CTCは推論オーバーヘッドを導入せず、既存のCSLRモデルにシームレスに統合して性能を向上させることができる。
提案手法の有効性は, 広範囲にわたる改善と可視化によってさらに検証された。
主要なCSLRデータセット(PHOENIX14、PHOENIX14-T、CSL-Daily)の結果は、DeSignが最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining [0.6144680854063939]
音声認識のための最先端コンフォーマーモデルを連続手話認識に適用する。
これは、視覚ベースのタスクにConformerを使用した最初の例である。
教師なし事前訓練は、キュレートされた手話データセット上で行われる。
論文 参考訳(メタデータ) (2024-05-20T13:40:52Z) - SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning
Framework for Emotion Recognition in Conversations [20.856739541819056]
会話における感情認識(ERC)は、自然言語処理コミュニティの中で急速に進化している課題である。
We propose a efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)。
浅い多層パーセプトロンを通して、離散ラベルを密度の高い埋め込みに投影することで、ラベル表現を活用する新しい視点を導入する。
論文 参考訳(メタデータ) (2023-10-25T14:41:14Z) - SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。
具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文 参考訳(メタデータ) (2023-09-11T21:32:13Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。