論文の概要: Towards Automatic Speech to Sign Language Generation
- arxiv url: http://arxiv.org/abs/2106.12790v1
- Date: Thu, 24 Jun 2021 06:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:08:44.689815
- Title: Towards Automatic Speech to Sign Language Generation
- Title(参考訳): 手話自動生成に向けて
- Authors: Parul Kapoor, Rudrabha Mukhopadhyay, Sindhu B Hegde, Vinay Namboodiri,
C V Jawahar
- Abstract要約: 音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
- 参考スコア(独自算出の注目度): 35.22004819666906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to solve the highly challenging task of generating continuous sign
language videos solely from speech segments for the first time. Recent efforts
in this space have focused on generating such videos from human-annotated text
transcripts without considering other modalities. However, replacing speech
with sign language proves to be a practical solution while communicating with
people suffering from hearing loss. Therefore, we eliminate the need of using
text as input and design techniques that work for more natural, continuous,
freely uttered speech covering an extensive vocabulary. Since the current
datasets are inadequate for generating sign language directly from speech, we
collect and release the first Indian sign language dataset comprising
speech-level annotations, text transcripts, and the corresponding sign-language
videos. Next, we propose a multi-tasking transformer network trained to
generate signer's poses from speech segments. With speech-to-text as an
auxiliary task and an additional cross-modal discriminator, our model learns to
generate continuous sign pose sequences in an end-to-end manner. Extensive
experiments and comparisons with other baselines demonstrate the effectiveness
of our approach. We also conduct additional ablation studies to analyze the
effect of different modules of our network. A demo video containing several
results is attached to the supplementary material.
- Abstract(参考訳): 我々は,音声セグメントのみから連続手話ビデオを生成するという極めて困難な課題を,初めて解決することを目指している。
この分野での最近の取り組みは、他のモダリティを考慮せずに、人間の注釈付きテキストからこのようなビデオを生成することに重点を置いている。
しかし, 音声を手話に置き換えることは, 難聴者とのコミュニケーションにおいて, 現実的な解決法であることが証明された。
そこで本研究では,より自然な,連続的,自由に発声できる語彙の入力・設計手法としてテキストを使用する必要性を解消した。
現在のデータセットは音声から直接手話を生成するには不十分であるため、音声レベルのアノテーション、テキスト書き起こし、対応する手話ビデオからなる最初のインド手話データセットを収集、リリースする。
次に,音声セグメントからシグナのポーズを生成するためのマルチタスクトランスフォーマーネットワークを提案する。
音声対テキストを補助タスクとして追加したクロスモーダル判別器を用いて,エンドツーエンドで連続的な手話ポーズ列の生成を学習する。
広範な実験と他のベースラインとの比較は、我々のアプローチの有効性を示しています。
また,ネットワークの異なるモジュールの効果を分析するために,さらにアブレーション研究を行っている。
補足材料には、いくつかの結果を含むデモビデオが添付されている。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Topic Detection in Continuous Sign Language Videos [23.43298383445439]
本稿では,手話話題検出の新しい課題について紹介する。
複数のセマンティックドメインにまたがる大規模ビデオデータセットであるHow2Signについて実験を行った。
論文 参考訳(メタデータ) (2022-09-01T19:17:35Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。