論文の概要: Cross-Attention Based Influence Model for Manual and Nonmanual Sign Language Analysis
- arxiv url: http://arxiv.org/abs/2409.08162v1
- Date: Thu, 12 Sep 2024 15:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:55:10.020895
- Title: Cross-Attention Based Influence Model for Manual and Nonmanual Sign Language Analysis
- Title(参考訳): 手動・非手動手話分析におけるクロスアテンションに基づく影響モデル
- Authors: Lipisha Chaudhary, Fei Xu, Ifeoma Nwogu,
- Abstract要約: 手(手)と非手動マーカー(NMM)の両方が、アメリカ手話(ASL)におけるフレーズの完全な意味を提供するのに重要である。
本稿では,2ストリームエンコーダからなる手話翻訳アーキテクチャについて述べる。一方のエンコーダは顔を扱うが,もう一方のエンコーダは上半身を扱う(手)。
本稿では,各入力モードが出力に与える影響を定量化するのに有用な,新しい並列クロスアテンション復号機構を提案する。
- 参考スコア(独自算出の注目度): 4.815056447245669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both manual (relating to the use of hands) and non-manual markers (NMM), such as facial expressions or mouthing cues, are important for providing the complete meaning of phrases in American Sign Language (ASL). Efforts have been made in advancing sign language to spoken/written language understanding, but most of these have primarily focused on manual features only. In this work, using advanced neural machine translation methods, we examine and report on the extent to which facial expressions contribute to understanding sign language phrases. We present a sign language translation architecture consisting of two-stream encoders, with one encoder handling the face and the other handling the upper body (with hands). We propose a new parallel cross-attention decoding mechanism that is useful for quantifying the influence of each input modality on the output. The two streams from the encoder are directed simultaneously to different attention stacks in the decoder. Examining the properties of the parallel cross-attention weights allows us to analyze the importance of facial markers compared to body and hand features during a translating task.
- Abstract(参考訳): 手(手)と非手動マーカー(NMM)の両方が、アメリカ手話(ASL)におけるフレーズの完全な意味を提供するのに重要である。
手話や文字による言語理解への手話の進歩には努力が払われているが、その多くは手動機能のみに重点を置いている。
本研究では, 高度なニューラルネットワーク翻訳手法を用いて, 表情が手話句の理解にどの程度貢献するかを調査, 報告する。
本稿では,2ストリームエンコーダと顔を扱うエンコーダ,上半身を扱う(手)エンコーダからなる手話翻訳アーキテクチャを提案する。
本稿では,各入力モードが出力に与える影響を定量化するのに有用な,新しい並列クロスアテンション復号機構を提案する。
エンコーダからの2つのストリームは、デコーダ内の異なるアテンションスタックに同時に向けられる。
パラレル・クロスアテンション・ウェイトの特性を調べることで,翻訳作業中の身体や手の特徴と比較して,顔のマーカーの重要性を分析することができる。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Context Matters: Self-Attention for Sign Language Recognition [1.005130974691351]
本稿では,継続的署名言語認識の課題に対する注目ネットワークを提案する。
符号言語のモダリティをモデル化するために、データの共依存ストリームを利用する。
モデルが支配的な手と顔の領域の周りを回転する重要な手話コンポーネントを識別することができることがわかります。
論文 参考訳(メタデータ) (2021-01-12T17:40:19Z) - Global-local Enhancement Network for NMFs-aware Sign Language
Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文 参考訳(メタデータ) (2020-08-24T13:28:55Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。