論文の概要: Adversarial Training for Multi-Channel Sign Language Production
- arxiv url: http://arxiv.org/abs/2008.12405v1
- Date: Thu, 27 Aug 2020 23:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:11:26.198660
- Title: Adversarial Training for Multi-Channel Sign Language Production
- Title(参考訳): マルチチャネル手話生成のためのadversarial training
- Authors: Ben Saunders, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: 本稿では,手話生成に対する逆多重チャネルアプローチを提案する。
我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。
逆微分器は、原文で条件付けられた符号生成の現実性を評価し、生成元を現実的で明瞭な出力にプッシュする。
- 参考スコア(独自算出の注目度): 43.45785951443149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Languages are rich multi-channel languages, requiring articulation of
both manual (hands) and non-manual (face and body) features in a precise,
intricate manner. Sign Language Production (SLP), the automatic translation
from spoken to sign languages, must embody this full sign morphology to be
truly understandable by the Deaf community. Previous work has mainly focused on
manual feature production, with an under-articulated output caused by
regression to the mean.
In this paper, we propose an Adversarial Multi-Channel approach to SLP. We
frame sign production as a minimax game between a transformer-based Generator
and a conditional Discriminator. Our adversarial discriminator evaluates the
realism of sign production conditioned on the source text, pushing the
generator towards a realistic and articulate output. Additionally, we fully
encapsulate sign articulators with the inclusion of non-manual features,
producing facial features and mouthing patterns.
We evaluate on the challenging RWTH-PHOENIX-Weather-2014T (PHOENIX14T)
dataset, and report state-of-the art SLP back-translation performance for
manual production. We set new benchmarks for the production of multi-channel
sign to underpin future research into realistic SLP.
- Abstract(参考訳): 手話はリッチなマルチチャネル言語であり、手動(手)と非手動(顔と体)の両方の特徴を正確に複雑な方法で記述する必要がある。
音声から手話への自動翻訳である手話生成(SLP)は、この完全な手話形態を具現化して、Deafコミュニティが真に理解しなくてはならない。
以前の作業は主に手動のフィーチャ生産に重点を置いており、平均への回帰によって引き起こされる未処理のアウトプットがある。
本稿では,SLPに対する逆多重チャネルアプローチを提案する。
我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。
提案手法は, 原文を条件とした手話生成の現実性を評価し, 生成器を現実的かつ明瞭な出力へと押し上げる。
さらに,非操作的特徴を含まない手指調音器を完全カプセル化し,顔特徴と口話パターンを生成させる。
本稿では,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットについて評価し,手動生産における最先端SLPバックトランスレーション性能について報告する。
我々は,現実的なSLP研究の基盤となるマルチチャネル信号の生成のための新しいベンチマークを設定した。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Universal Gloss-level Representation for Gloss-free Sign Language Translation and Production [9.065171626657818]
Universal Gloss-level Representation (UniGloR)は手話翻訳と手話生成のための統一的で自己指導型のソリューションである。
本結果は,UniGloRの翻訳および生産における有効性を示すものである。
本研究は, 自己指導型学習を統一的に実現し, 革新的かつ実践的な応用の道を開くことを示唆する。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。
本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。
また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文 参考訳(メタデータ) (2022-01-05T13:45:09Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Progressive Transformers for End-to-End Sign Language Production [43.45785951443149]
自動手話生成(SLP)の目的は、音声言語を手話ビデオの連続ストリームに変換することである。
主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。
本稿では,手話を表す音声文から連続的な3Dスケルトンへの変換が可能な新しいアーキテクチャであるProgressive Transformersを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。