論文の概要: Unsupervised Sign Language Translation and Generation
- arxiv url: http://arxiv.org/abs/2402.07726v1
- Date: Mon, 12 Feb 2024 15:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:57:19.242811
- Title: Unsupervised Sign Language Translation and Generation
- Title(参考訳): 教師なし手話翻訳と生成
- Authors: Zhengsheng Guo, Zhiwei He, Wenxiang Jiao, Xing Wang, Rui Wang, Kehai
Chen, Zhaopeng Tu, Yong Xu, Min Zhang
- Abstract要約: 教師なし手話翻訳・生成ネットワーク(USLNet)を導入する。
USLNetは、並列手話データなしで、豊富な単一モダリティ(テキストとビデオ)データから学習する。
可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウインドウ手法を提案する。
- 参考スコア(独自算出の注目度): 72.01216288379072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the success of unsupervised neural machine translation (UNMT),
we introduce an unsupervised sign language translation and generation network
(USLNet), which learns from abundant single-modality (text and video) data
without parallel sign language data. USLNet comprises two main components:
single-modality reconstruction modules (text and video) that rebuild the input
from its noisy version in the same modality and cross-modality back-translation
modules (text-video-text and video-text-video) that reconstruct the input from
its noisy version in the different modality using back-translation
procedure.Unlike the single-modality back-translation procedure in text-based
UNMT, USLNet faces the cross-modality discrepancy in feature representation, in
which the length and the feature dimension mismatch between text and video
sequences. We propose a sliding window method to address the issues of aligning
variable-length text with video sequences. To our knowledge, USLNet is the
first unsupervised sign language translation and generation model capable of
generating both natural language text and sign language video in a unified
manner. Experimental results on the BBC-Oxford Sign Language dataset (BOBSL)
and Open-Domain American Sign Language dataset (OpenASL) reveal that USLNet
achieves competitive results compared to supervised baseline models, indicating
its effectiveness in sign language translation and generation.
- Abstract(参考訳): unsupervised neural machine translation (UNMT)の成功に触発されて、並列手話データなしで豊富な単一モダリティ(テキストとビデオ)データから学習する、unsupervised sign language translation and generation network (USLNet)を導入する。
USLNet comprises two main components: single-modality reconstruction modules (text and video) that rebuild the input from its noisy version in the same modality and cross-modality back-translation modules (text-video-text and video-text-video) that reconstruct the input from its noisy version in the different modality using back-translation procedure.Unlike the single-modality back-translation procedure in text-based UNMT, USLNet faces the cross-modality discrepancy in feature representation, in which the length and the feature dimension mismatch between text and video sequences.
可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウィンドウ手法を提案する。
我々の知る限り、USLNetは、自然言語テキストと手話ビデオの両方を統一的に生成できる最初の教師なし手話翻訳および生成モデルである。
BBC-Oxford Sign Language データセット (BOBSL) と Open-Domain American Sign Language データセット (OpenASL) の実験結果から,USLNet は教師付きベースラインモデルと比較して競争力のある結果となり,手話の翻訳と生成に有効であることが示された。
関連論文リスト
- Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SLTUNET: A Simple Unified Model for Sign Language Translation [40.93099095994472]
複数のサイン・トゥ・グロス、グロス・トゥ・テキストおよびサイン・トゥ・テキスト翻訳タスクをサポートするために設計された単純な統合ニューラルモデルを提案する。
様々なタスクを共同でモデリングすることで、SLTUNETは、モダリティギャップを狭めるのに役立つクロスタスク関連性を探索することができる。
実験では, ENIX-2014T と CSL-Daily において, SLTUNET が競争力, 最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2023-05-02T20:41:59Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。