論文の概要: Two-Stream Network for Sign Language Recognition and Translation
- arxiv url: http://arxiv.org/abs/2211.01367v2
- Date: Thu, 23 Mar 2023 02:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 18:11:02.824547
- Title: Two-Stream Network for Sign Language Recognition and Translation
- Title(参考訳): 手話認識と翻訳のための2ストリームネットワーク
- Authors: Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak
- Abstract要約: 本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
- 参考スコア(独自算出の注目度): 38.43767031555092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign languages are visual languages using manual articulations and non-manual
elements to convey information. For sign language recognition and translation,
the majority of existing approaches directly encode RGB videos into hidden
representations. RGB videos, however, are raw signals with substantial visual
redundancy, leading the encoder to overlook the key information for sign
language understanding. To mitigate this problem and better incorporate domain
knowledge, such as handshape and body movement, we introduce a dual visual
encoder containing two separate streams to model both the raw videos and the
keypoint sequences generated by an off-the-shelf keypoint estimator. To make
the two streams interact with each other, we explore a variety of techniques,
including bidirectional lateral connection, sign pyramid network with auxiliary
supervision, and frame-level self-distillation. The resulting model is called
TwoStream-SLR, which is competent for sign language recognition (SLR).
TwoStream-SLR is extended to a sign language translation (SLT) model,
TwoStream-SLT, by simply attaching an extra translation network.
Experimentally, our TwoStream-SLR and TwoStream-SLT achieve state-of-the-art
performance on SLR and SLT tasks across a series of datasets including
Phoenix-2014, Phoenix-2014T, and CSL-Daily. Code and models are available at:
https://github.com/FangyunWei/SLRT.
- Abstract(参考訳): 手話言語は、情報伝達に手動の調音と非操作要素を使用する視覚言語である。
手話の認識と翻訳では、既存のアプローチの大部分は、rgbビデオを直接隠れた表現にエンコードする。
しかし、RGBビデオは、かなりの視覚的冗長性を持つ生信号であり、エンコーダは手話理解の鍵となる情報を見落としてしまう。
この問題を緩和し、ハンドシェイプやボディムーブメントといったドメイン知識をより深く取り入れるために、2つの別々のストリームを含むデュアルビジュアルエンコーダを導入し、生の動画とオフセットのキーポイント推定器によって生成されたキーポイントシーケンスの両方をモデル化する。
この2つのストリームを相互に相互作用させるため,双方向の側方接続,補助的な監視を伴う信号ピラミッドネットワーク,フレームレベルの自己蒸留など,さまざまな手法を探索する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識(SLR)に適している。
TwoStream-SLRは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換(SLT)モデルであるTwoStream-SLTに拡張される。
実験により,TwoStream-SLRとTwoStream-SLTは,Phoenix-2014,Phoenix-2014T,CSL-Dailyといった一連のデータセットに対して,SLRおよびSLTタスクの最先端性能を実現した。
コードとモデルは、https://github.com/FangyunWei/SLRT.comで入手できる。
関連論文リスト
- SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。