論文の概要: Towards Online Sign Language Recognition and Translation
- arxiv url: http://arxiv.org/abs/2401.05336v1
- Date: Wed, 10 Jan 2024 18:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 13:59:39.237340
- Title: Towards Online Sign Language Recognition and Translation
- Title(参考訳): オンライン手話認識と翻訳に向けて
- Authors: Ronglai Zuo, Fangyun Wei, Brian Mak
- Abstract要約: 我々は、ターゲット手話データセットに存在するすべてのグルースを含む手話辞書を開発する。
我々は,従来の分類損失と新たな給与損失の両方を用いて,拡張符号を用いた単独手話認識モデルを訓練する。
私たちのオンライン認識モデルは、オフラインモデルの性能を高めるために拡張できます。
- 参考スコア(独自算出の注目度): 41.85360877354916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of sign language recognition is to bridge the communication gap
between the deaf and the hearing. Numerous previous works train their models
using the well-established connectionist temporal classification (CTC) loss.
During the inference stage, the CTC-based models typically take the entire sign
video as input to make predictions. This type of inference scheme is referred
to as offline recognition. In contrast, while mature speech recognition systems
can efficiently recognize spoken words on the fly, sign language recognition
still falls short due to the lack of practical online solutions. In this work,
we take the first step towards filling this gap. Our approach comprises three
phases: 1) developing a sign language dictionary encompassing all glosses
present in a target sign language dataset; 2) training an isolated sign
language recognition model on augmented signs using both conventional
classification loss and our novel saliency loss; 3) employing a sliding window
approach on the input sign sequence and feeding each sign clip to the
well-optimized model for online recognition. Furthermore, our online
recognition model can be extended to boost the performance of any offline
model, and to support online translation by appending a gloss-to-text network
onto the recognition model. By integrating our online framework with the
previously best-performing offline model, TwoStream-SLR, we achieve new
state-of-the-art performance on three benchmarks: Phoenix-2014, Phoenix-2014T,
and CSL-Daily. Code and models will be available at
https://github.com/FangyunWei/SLRT
- Abstract(参考訳): 手話認識の目的は聴覚障害者と聴覚障害者のコミュニケーションギャップを橋渡しすることである。
多くの先行研究は、よく確立されたコネクショニスト時間分類(CTC)の損失を使ってモデルを訓練した。
推論段階では、CTCベースのモデルは通常、サインビデオ全体を入力として、予測を行う。
このタイプの推論スキームはオフライン認識と呼ばれる。
対照的に、成熟した音声認識システムは、オンザフライで話し言葉を認識することができるが、実用的なオンラインソリューションが欠如しているため、手話認識はまだ不足している。
この作業では、このギャップを埋める第一歩を踏み出します。
私たちのアプローチは3つのフェーズからなる。
1) 対象手話データセットに存在するすべての用語を包含する手話辞書の開発
2) 従来の分類損失と新たな給与損失の両方を用いて, 拡張記号を用いた単独手話認識モデルの訓練
3)入力サインシーケンスにスライディングウインドウアプローチを適用し,各サインクリップを最適化したオンライン認識モデルに供給する。
さらに、オンライン認識モデルを拡張して、オフラインモデルのパフォーマンスを高め、認識モデルに光沢からテキストへのネットワークを追加することにより、オンライン翻訳をサポートすることができる。
これまで最もパフォーマンスの高いオフラインモデルであるtwostream-slrとオンラインフレームワークを統合することで、phoenix-2014、phoenix-2014t、csl-dailyの3つのベンチマークで、新たな最先端のパフォーマンスを実現します。
コードとモデルはhttps://github.com/FangyunWei/SLRTで入手できる。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining [0.6144680854063939]
音声認識のための最先端コンフォーマーモデルを連続手話認識に適用する。
これは、視覚ベースのタスクにConformerを使用した最初の例である。
教師なし事前訓練は、キュレートされた手話データセット上で行われる。
論文 参考訳(メタデータ) (2024-05-20T13:40:52Z) - Improving Continuous Sign Language Recognition with Adapted Image Models [9.366498095041814]
大規模ヴィジュアル言語モデル(例えばCLIP)は、一連の下流タスクに対して顕著な一般化性能を示している。
このような大きな視覚言語モデルを連続手話認識に適応させる際に高い効率性を実現するため、我々は新しい戦略(AdaptSign)を提案する。
AdaptSignは、既存の方法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れたパフォーマンスを示すことができる。
論文 参考訳(メタデータ) (2024-04-12T03:43:37Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。