論文の概要: Towards Online Continuous Sign Language Recognition and Translation
- arxiv url: http://arxiv.org/abs/2401.05336v2
- Date: Sun, 22 Sep 2024 17:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:28:28.156916
- Title: Towards Online Continuous Sign Language Recognition and Translation
- Title(参考訳): オンライン連続手話認識と翻訳に向けて
- Authors: Ronglai Zuo, Fangyun Wei, Brian Mak,
- Abstract要約: 連続手話認識の研究は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋めるのに不可欠である。
我々は、手話辞書を開発し、その辞書上で孤立手話認識モデルを訓練し、入力手話シーケンスにスライディングウインドウアプローチを用いる。
我々のオンライン認識モデルは、グロス・トゥ・テキスト・ネットワークを統合することで、オンライン翻訳をサポートするように拡張することができる。
- 参考スコア(独自算出の注目度): 37.23962699105158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on continuous sign language recognition (CSLR) is essential to bridge the communication gap between deaf and hearing individuals. Numerous previous studies have trained their models using the connectionist temporal classification (CTC) loss. During inference, these CTC-based models generally require the entire sign video as input to make predictions, a process known as offline recognition, which suffers from high latency and substantial memory usage. In this work, we take the first step towards online CSLR. Our approach consists of three phases: 1) developing a sign dictionary; 2) training an isolated sign language recognition model on the dictionary; and 3) employing a sliding window approach on the input sign sequence, feeding each sign clip to the optimized model for online recognition. Additionally, our online recognition model can be extended to support online translation by integrating a gloss-to-text network and can enhance the performance of any offline model. With these extensions, our online approach achieves new state-of-the-art performance on three popular benchmarks across various task settings. Code and models are available at https://github.com/FangyunWei/SLRT.
- Abstract(参考訳): 聴覚と聴覚のコミュニケーションギャップを埋めるためには,連続手話認識(CSLR)の研究が不可欠である。
過去の多くの研究では、コネクショニスト時間分類(CTC)の損失を用いてモデルを訓練してきた。
推論の間、これらのCTCベースのモデルは一般的に、高いレイテンシとかなりのメモリ使用量に悩まされるオフライン認識と呼ばれるプロセスである予測を行うために、入力としてサインビデオ全体を必要とする。
本研究では,オンラインCSLRに向けた第一歩を踏み出す。
私たちのアプローチは3つのフェーズで構成されています。
1)手話辞書の作成
2 辞書上で孤立手話認識モデルを訓練すること、及び
3)入力サインシーケンスにスライディングウインドウアプローチを適用し,各サインクリップを最適化したオンライン認識モデルに供給する。
さらに、我々のオンライン認識モデルは、グロス・トゥ・テキスト・ネットワークを統合することで、オンライン翻訳をサポートするように拡張することができ、オフラインモデルの性能を向上させることができる。
これらの拡張により、オンラインアプローチは、様々なタスク設定にまたがる3つの人気のあるベンチマークに対して、最先端のパフォーマンスを新たに達成する。
コードとモデルはhttps://github.com/FangyunWei/SLRT.comで公開されている。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining [0.6144680854063939]
音声認識のための最先端コンフォーマーモデルを連続手話認識に適用する。
これは、視覚ベースのタスクにConformerを使用した最初の例である。
教師なし事前訓練は、キュレートされた手話データセット上で行われる。
論文 参考訳(メタデータ) (2024-05-20T13:40:52Z) - Improving Continuous Sign Language Recognition with Adapted Image Models [9.366498095041814]
大規模ヴィジュアル言語モデル(例えばCLIP)は、一連の下流タスクに対して顕著な一般化性能を示している。
このような大きな視覚言語モデルを連続手話認識に適応させる際に高い効率性を実現するため、我々は新しい戦略(AdaptSign)を提案する。
AdaptSignは、既存の方法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れたパフォーマンスを示すことができる。
論文 参考訳(メタデータ) (2024-04-12T03:43:37Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。