論文の概要: SignLLM: Sign Languages Production Large Language Models
- arxiv url: http://arxiv.org/abs/2405.10718v1
- Date: Fri, 17 May 2024 12:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:13:13.194651
- Title: SignLLM: Sign Languages Production Large Language Models
- Title(参考訳): SignLLM:手話が大規模言語モデルを生産する
- Authors: Sen Fang, Lei Wang, Ce Zheng, Yapeng Tian, Chen Chen,
- Abstract要約: 本稿では,Prompt2Signという,多言語手話データセットについて紹介する。
私たちのデータセットは、大量のビデオを合理化されたモデルフレンドリーなフォーマットに変換します。
本稿では,最初の多言語手話生成モデルであるSignLLMを提案する。
- 参考スコア(独自算出の注目度): 33.438444361552854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the first comprehensive multilingual sign language dataset named Prompt2Sign, which builds from public data including American Sign Language (ASL) and seven others. Our dataset transforms a vast array of videos into a streamlined, model-friendly format, optimized for training with translation models like seq2seq and text2text. Building on this new dataset, we propose SignLLM, the first multilingual Sign Language Production (SLP) model, which includes two novel multilingual SLP modes that allow for the generation of sign language gestures from input text or prompt. Both of the modes can use a new loss and a module based on reinforcement learning, which accelerates the training by enhancing the model's capability to autonomously sample high-quality data. We present benchmark results of SignLLM, which demonstrate that our model achieves state-of-the-art performance on SLP tasks across eight sign languages.
- Abstract(参考訳): 本稿では,ASL(American Sign Language)を含む公開データから構築した,Prompt2Signという,最初の総合的な多言語手話データセットを紹介する。
私たちのデータセットは、大量のビデオを合理化してモデルフレンドリなフォーマットに変換し、Seq2seqやtext2textのような翻訳モデルでトレーニングするために最適化します。
この新たなデータセットに基づいて、入力テキストやプロンプトから手話ジェスチャを生成するための2つの新しい多言語SLPモードを含む、最初の多言語手話生成(SLP)モデルであるSignLLMを提案する。
どちらのモードも、新しい損失と強化学習に基づくモジュールを使用して、高品質なデータを自律的にサンプリングするモデルの能力を強化することで、トレーニングを加速することができる。
本稿では,8つの手話言語を対象としたSLPタスクの最先端性能を示すSignLLMのベンチマーク結果を示す。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - SignDiff: Diffusion Models for American Sign Language Production [23.82668888574089]
本稿では,手話話者を骨格ポーズから生成できるSignDiffという2条件拡散事前学習モデルを提案する。
また,テキスト入力からASL骨格ポーズビデオを生成する,ASLP(American Sign Language Production)の新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-30T15:14:56Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。