論文の概要: AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2507.19840v1
- Date: Sat, 26 Jul 2025 07:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.278796
- Title: AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition
- Title(参考訳): AutoSign: 連続手話認識のための直訳
- Authors: Samuel Ebimobowei Johnny, Blessed Guda, Andrew Blayama Stephen, Assane Gueye,
- Abstract要約: 聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。
ポーズ列を直接自然言語テキストに変換する自動回帰デコーダのみの変換器であるAutoSignを提案する。
マルチステージパイプラインを削除することで、AutoSignはIsharah-1000データセットを大幅に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuously recognizing sign gestures and converting them to glosses plays a key role in bridging the gap between the hearing and hearing-impaired communities. This involves recognizing and interpreting the hands, face, and body gestures of the signer, which pose a challenge as it involves a combination of all these features. Continuous Sign Language Recognition (CSLR) methods rely on multi-stage pipelines that first extract visual features, then align variable-length sequences with target glosses using CTC or HMM-based approaches. However, these alignment-based methods suffer from error propagation across stages, overfitting, and struggle with vocabulary scalability due to the intermediate gloss representation bottleneck. To address these limitations, we propose AutoSign, an autoregressive decoder-only transformer that directly translates pose sequences to natural language text, bypassing traditional alignment mechanisms entirely. The use of this decoder-only approach allows the model to directly map between the features and the glosses without the need for CTC loss while also directly learning the textual dependencies in the glosses. Our approach incorporates a temporal compression module using 1D CNNs to efficiently process pose sequences, followed by AraGPT2, a pre-trained Arabic decoder, to generate text (glosses). Through comprehensive ablation studies, we demonstrate that hand and body gestures provide the most discriminative features for signer-independent CSLR. By eliminating the multi-stage pipeline, AutoSign achieves substantial improvements on the Isharah-1000 dataset, achieving an improvement of up to 6.1\% in WER score compared to the best existing method.
- Abstract(参考訳): 聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。
これは、手、顔、身体のジェスチャーを認識し、解釈することを含み、これらすべての特徴を組み合わせることで困難を生じさせる。
CSLR(Continuous Sign Language Recognition)法は、まず視覚的特徴を抽出し、CTCやHMMベースのアプローチを用いて、可変長シーケンスを目標グルースと整列する多段階パイプラインに依存している。
しかし、これらのアライメントに基づく手法は、中間的な光沢表現のボトルネックのため、段階的にエラーの伝播、過度な適合、語彙のスケーラビリティに悩まされる。
これらの制約に対処するため,自動回帰デコーダのみの変換器であるAutoSignを提案する。
このデコーダのみのアプローチを使用することで、モデルがCTCロスを必要とせず、機能とグルースを直接マップできると同時に、グルース内のテキスト依存を直接学習することが可能になる。
提案手法では,1次元CNNを用いた時間圧縮モジュールを用いてポーズ列を効率よく処理し,さらに事前訓練されたアラビアデコーダであるAraGPT2を用いてテキスト(グロス)を生成する。
包括的アブレーション研究を通じて,手と身体のジェスチャーがシグナー非依存的なCSLRに対して最も差別的な特徴を提供することを示した。
マルチステージパイプラインを廃止することで、AutoSignはIsharah-1000データセットを大幅に改善し、WERスコアの最大6.1\%の改善を実現している。
関連論文リスト
- LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - StgcDiff: Spatial-Temporal Graph Condition Diffusion for Sign Language Transition Generation [33.695308849489784]
離散符号間のスムーズな遷移を生成するグラフベースの条件拡散フレームワークStgcDiffを提案する。
具体的には、エンコーダ・デコーダアーキテクチャをトレーニングし、空間的時間的骨格の構造認識表現を学習する。
我々は,その空間的特徴を効果的にモデル化する,Sign-GCNモジュールをフレームワークのキーコンポーネントとして設計する。
論文 参考訳(メタデータ) (2025-06-16T07:09:51Z) - Disentangle and Regularize: Sign Language Production with Articulator-Based Disentanglement and Channel-Aware Regularization [1.8024397171920885]
我々は,手話のポーズをコンパクトな潜在空間にエンコードするポーズオートエンコーダを,調音器によるアンタングルメント戦略を用いて訓練する。
次に、非自己回帰変換器デコーダをトレーニングし、文レベルのテキスト埋め込みからこれらの潜在表現を予測する。
提案手法は光沢の監視や事前訓練に頼らず,PHOENIX14TおよびCSL-DailyPHOENIXデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-04-09T06:14:19Z) - SignRep: Enhancing Self-Supervised Sign Representations [30.008980708977095]
記号言語表現学習は、記号の複雑な時間的性質とラベル付きデータセットの不足により、ユニークな課題を提示する。
我々は手話表現学習のためのスケーラブルで自己指導型のフレームワークを導入する。
我々のモデルは、下流タスク中にキーポイントベースのモデルの制限を避けるため、推論中に骨格キーポイントを必要としない。
これは手話辞書の検索や手話翻訳に優れており、検索における標準的なMAE事前学習や骨格に基づく表現を超越している。
論文 参考訳(メタデータ) (2025-03-11T15:20:01Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。