論文の概要: Autoregressive Sign Language Production: A Gloss-Free Approach with
Discrete Representations
- arxiv url: http://arxiv.org/abs/2309.12179v1
- Date: Thu, 21 Sep 2023 15:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:38:44.467792
- Title: Autoregressive Sign Language Production: A Gloss-Free Approach with
Discrete Representations
- Title(参考訳): 自己回帰手話生成:離散表現を用いたグロスフリーアプローチ
- Authors: Eui Jun Hwang, Huije Lee, Jong C. Park
- Abstract要約: グロスフリー手話生成(SLP)は、手話文を直接手話に翻訳する。
本稿では、ベクトル量子化を利用して、符号ポーズ列から離散表現を導出する新しいSLP手法を提案する。
- 参考スコア(独自算出の注目度): 9.277067377012258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gloss-free Sign Language Production (SLP) offers a direct translation of
spoken language sentences into sign language, bypassing the need for gloss
intermediaries. This paper presents the Sign language Vector Quantization
Network, a novel approach to SLP that leverages Vector Quantization to derive
discrete representations from sign pose sequences. Our method, rooted in both
manual and non-manual elements of signing, supports advanced decoding methods
and integrates latent-level alignment for enhanced linguistic coherence.
Through comprehensive evaluations, we demonstrate superior performance of our
method over prior SLP methods and highlight the reliability of Back-Translation
and Fr\'echet Gesture Distance as evaluation metrics.
- Abstract(参考訳): Gloss-free Sign Language Production (SLP)は、音声言語文の手話への直接翻訳を提供する。
本稿では,手話ベクトル量子化ネットワークについて述べる。このネットワークは,手話ポーズ列から離散表現を導出するためにベクトル量子化を利用する新しいslpアプローチである。
本手法は手動と非手動の両方に根ざし,高度な復号法をサポートし,言語コヒーレンスを高めるために潜在レベルアライメントを統合する。
総合評価を通じて,従来のSLP法よりも優れた性能を示し,Back-TranslationとFr'echet Gesture Distanceの信頼性を評価指標として強調する。
関連論文リスト
- Sign Language Translation with Iterative Prototype [104.76761930888604]
IP-SLTは手話翻訳のためのシンプルだが効果的なフレームワークである
我々の考えは、人間の読みの振る舞いを模倣し、文を何度も消化して、正確な理解を得るというものである。
論文 参考訳(メタデータ) (2023-08-23T15:27:50Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Adversarial Training for Multi-Channel Sign Language Production [43.45785951443149]
本稿では,手話生成に対する逆多重チャネルアプローチを提案する。
我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。
逆微分器は、原文で条件付けられた符号生成の現実性を評価し、生成元を現実的で明瞭な出力にプッシュする。
論文 参考訳(メタデータ) (2020-08-27T23:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。