論文の概要: SignNet: Single Channel Sign Generation using Metric Embedded Learning
- arxiv url: http://arxiv.org/abs/2212.02848v1
- Date: Tue, 6 Dec 2022 09:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:35:11.624617
- Title: SignNet: Single Channel Sign Generation using Metric Embedded Learning
- Title(参考訳): SignNet:Metric Embedded Learningを用いたシングルチャネルサイン生成
- Authors: Tejaswini Ananthanarayana and Lipisha Chaudhary and Ifeoma Nwogu
- Abstract要約: このモジュールは、text-to-sign (T2S) と sign-to-text (S2T) を含むデュアルラーニング2タスクプロセスの一部に過ぎない。
本稿では,手話埋め込み間の距離を保存するために,新しいメートル法埋め込み学習プロセスを用いたT2SタスクであるSignNetを提案する。
ポーズを取るための光沢なタスクでは、SignNetは最先端のSoTA(SoTA)と同等に実行し、それらをテキストでポーズするタスクで上回った。
- 参考スコア(独自算出の注目度): 7.455416595124159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A true interpreting agent not only understands sign language and translates
to text, but also understands text and translates to signs. Much of the AI work
in sign language translation to date has focused mainly on translating from
signs to text. Towards the latter goal, we propose a text-to-sign translation
model, SignNet, which exploits the notion of similarity (and dissimilarity) of
visual signs in translating. This module presented is only one part of a
dual-learning two task process involving text-to-sign (T2S) as well as
sign-to-text (S2T). We currently implement SignNet as a single channel
architecture so that the output of the T2S task can be fed into S2T in a
continuous dual learning framework. By single channel, we refer to a single
modality, the body pose joints.
In this work, we present SignNet, a T2S task using a novel metric embedding
learning process, to preserve the distances between sign embeddings relative to
their dissimilarity. We also describe how to choose positive and negative
examples of signs for similarity testing. From our analysis, we observe that
metric embedding learning-based model perform significantly better than the
other models with traditional losses, when evaluated using BLEU scores. In the
task of gloss to pose, SignNet performed as well as its state-of-the-art (SoTA)
counterparts and outperformed them in the task of text to pose, by showing
noteworthy enhancements in BLEU 1 - BLEU 4 scores (BLEU 1: 31->39; ~26%
improvement and BLEU 4: 10.43->11.84; ~14\% improvement) when tested on the
popular RWTH PHOENIX-Weather-2014T benchmark dataset
- Abstract(参考訳): 真の解釈エージェントは手話を理解し、テキストに翻訳するだけでなく、テキストを理解し、記号に翻訳する。
現在までの手話翻訳におけるAIの仕事の多くは、主に記号からテキストへの翻訳に焦点を当てている。
後者の目的に向けて,視覚記号の類似性(および類似性)を利用したテキスト対符号翻訳モデルであるsignnetを提案する。
このモジュールは、text-to-sign(t2s)とsign-to-text(s2t)を含むデュアルラーニング2つのタスクプロセスの一部に過ぎない。
現在、シングルチャネルアーキテクチャとしてSignNetを実装しており、T2Sタスクの出力を連続的なデュアルラーニングフレームワークでS2Tに入力することができる。
単一のチャンネルによって、私たちは単一のモダリティを指し、体は関節をポーズします。
本研究では,新しい計量埋め込み学習プロセスを用いたT2SタスクであるSignNetを提案する。
また、類似性テストの兆候の正および負の例を選択する方法についても述べる。
本分析から,BLEUスコアを用いた評価では,メトリクス埋め込み学習モデルの方が従来の損失モデルよりも有意に優れた結果が得られた。
ポーズに関する課題において、signnetは最先端(sota)と並んで、人気のrwth phoenix-weather-2014tベンチマークデータセットでテストした際、bleu 1 - bleu 4スコア(bleu 1: 31->39; ~26%改善、bleu 4: 10.43->11.84; ~14\%改善)で注目すべき拡張を示すことによって、ポーズするテキストのタスクでそれらを上回らせた。
関連論文リスト
- Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。