論文の概要: PiSLTRc: Position-informed Sign Language Transformer with Content-aware
Convolution
- arxiv url: http://arxiv.org/abs/2107.12600v1
- Date: Tue, 27 Jul 2021 05:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 01:11:58.687006
- Title: PiSLTRc: Position-informed Sign Language Transformer with Content-aware
Convolution
- Title(参考訳): PiSLTRc:コンテンツ認識変換による位置インフォームド手話変換器
- Authors: Pan Xie and Mengyi Zhao and Xiaohui Hu
- Abstract要約: 本稿では,2つの特徴を持つ新しいモデルアーキテクチャ,すなわちPiSLTRcを提案する。
我々は,新しいコンテンツ認識近傍収集手法を用いて,関連性のある特徴を明示的に選択する。
これらの特徴を、位置インフォームされた時間的畳み込み層で集約し、ロバストな近傍強調符号表現を生成する。
バニラトランスフォーマーモデルと比較して、我々のモデルは3つの大規模手話ベンチマークで一貫して性能が向上する。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the superiority of Transformer in learning long-term dependency, the
sign language Transformer model achieves remarkable progress in Sign Language
Recognition (SLR) and Translation (SLT). However, there are several issues with
the Transformer that prevent it from better sign language understanding. The
first issue is that the self-attention mechanism learns sign video
representation in a frame-wise manner, neglecting the temporal semantic
structure of sign gestures. Secondly, the attention mechanism with absolute
position encoding is direction and distance unaware, thus limiting its ability.
To address these issues, we propose a new model architecture, namely PiSLTRc,
with two distinctive characteristics: (i) content-aware and position-aware
convolution layers. Specifically, we explicitly select relevant features using
a novel content-aware neighborhood gathering method. Then we aggregate these
features with position-informed temporal convolution layers, thus generating
robust neighborhood-enhanced sign representation. (ii) injecting the relative
position information to the attention mechanism in the encoder, decoder, and
even encoder-decoder cross attention. Compared with the vanilla Transformer
model, our model performs consistently better on three large-scale sign
language benchmarks: PHOENIX-2014, PHOENIX-2014-T and CSL. Furthermore,
extensive experiments demonstrate that the proposed method achieves
state-of-the-art performance on translation quality with $+1.6$ BLEU
improvements.
- Abstract(参考訳): 長期依存学習におけるトランスフォーマーの優位性から,手話変換モデルは手話認識(SLR)や翻訳(SLT)において顕著な進歩を遂げている。
しかし、Transformerには、より優れた手話理解を妨げるいくつかの問題がある。
第1の問題は、自己着脱機構が、手指ジェスチャの時間的意味構造を無視して、フレーム的に手指映像表現を学習することである。
第二に、絶対位置符号化による注意機構は方向と距離を意識せず、その能力を制限する。
これらの問題に対処するために,<i>コンテンツ認識層と位置認識畳み込み層という2つの特徴を持つ新しいモデルアーキテクチャ,すなわちPiSLTRcを提案する。
具体的には,新しいコンテンツ認識近傍収集手法を用いて,関係する特徴を明示的に選択する。
次に,これらの特徴を時間的畳み込み層に集約し,頑健な近傍符号表現を生成する。
(ii)エンコーダ、デコーダ、さらにはエンコーダ−デコーダのアテンション機構に相対的な位置情報を注入すること。
バニラトランスフォーマーモデルと比較して、我々のモデルは、PHOENIX-2014、PHOENIX-2014-T、CSLの3つの大規模手話言語ベンチマークにおいて一貫して改善されている。
さらに,提案手法が翻訳品質の最先端性能を達成し,$1.6$ bleu が向上したことを示す実験を行った。
関連論文リスト
- Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Online Gesture Recognition using Transformer and Natural Language
Processing [0.0]
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T10:17:22Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning [8.944233327731245]
本稿では,GAT(Geometry Attention Transformer)モデルを提案する。
幾何学的情報をさらに活用するために、2つの新しい幾何学的アーキテクチャが設計されている。
我々のGATは、しばしば最先端の画像キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-10-01T11:57:50Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。