論文の概要: SignLLM: Sign Language Production Large Language Models
- arxiv url: http://arxiv.org/abs/2405.10718v3
- Date: Wed, 30 Apr 2025 02:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.758238
- Title: SignLLM: Sign Language Production Large Language Models
- Title(参考訳): SignLLM:手話生産大規模言語モデル
- Authors: Sen Fang, Chen Chen, Lei Wang, Ce Zheng, Chunyu Sui, Yapeng Tian,
- Abstract要約: 我々は多言語手話生成(SLP)大言語モデルであるSignLLMを提案する。
2つの新しいSLPモードMLSFとPrompt2LangGlossは、クエリテキスト入力と質問スタイルプロンプト入力から手話ジェスチャーを生成することができる。
我々はSignLLMを広範に評価し、8つの手話言語でSLPタスクの最先端性能を実現することを実証した。
- 参考スコア(独自算出の注目度): 31.557139567708067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose SignLLM, a multilingual Sign Language Production (SLP) large language model, which includes two novel multilingual SLP modes MLSF and Prompt2LangGloss that allow sign language gestures generation from query texts input and question-style prompts input respectively. Both modes can use a new RL loss based on reinforcement learning and a new RL module named Priority Learning Channel. These RL components can accelerate the training by enhancing the model's capability to sample high-quality data. To train SignLLM, we introduce Prompt2Sign, a comprehensive multilingual sign language dataset, which builds from public data, including American Sign Language (ASL) and seven others. This dataset standardizes information by extracting pose information from sign language videos into a unified compressed format. We extensively evaluate SignLLM, demonstrating that our model achieves state-of-the-art performance on SLP tasks across eight sign languages.
- Abstract(参考訳): 本稿では,MLSFとPrompt2LangGlossという2つの新しい多言語SLPモードを含む多言語手話生成(SLP)大言語モデルであるSignLLMを提案する。
どちらのモードも、強化学習に基づく新しいRL損失と、プライオリティ学習チャンネルと呼ばれる新しいRLモジュールを使用することができる。
これらのRLコンポーネントは、高品質なデータをサンプリングするモデルの能力を強化することで、トレーニングを加速することができる。
SignLLMのトレーニングには、American Sign Language(ASL)などを含む公開データから構築された、包括的な多言語手話データセットであるPrompt2Signを導入する。
このデータセットは、手話ビデオからポーズ情報を統一された圧縮フォーマットに抽出することで、情報を標準化する。
我々はSignLLMを広範に評価し、8つの手話言語でSLPタスクの最先端性能を実現することを実証した。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。
マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。
提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T09:01:41Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - LLMs are Good Sign Language Translators [19.259163728870696]
手話翻訳は,手話動画を音声言語に翻訳することを目的とした課題である。
本稿では,手話動画を言語的表現に変換する新しいSignLLMフレームワークを提案する。
広範に使用されている2つのSLTベンチマークにおいて、最先端のグロスフリーな結果が得られる。
論文 参考訳(メタデータ) (2024-04-01T05:07:13Z) - SignDiff: Diffusion Models for American Sign Language Production [23.82668888574089]
本稿では,手話話者を骨格ポーズから生成できるSignDiffという2条件拡散事前学習モデルを提案する。
また,テキスト入力からASL骨格ポーズビデオを生成する,ASLP(American Sign Language Production)の新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-30T15:14:56Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。