論文の概要: Beyond Words: AuralLLM and SignMST-C for Sign Language Production and Bidirectional Accessibility
- arxiv url: http://arxiv.org/abs/2501.00765v2
- Date: Sun, 13 Apr 2025 12:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:46:41.856734
- Title: Beyond Words: AuralLLM and SignMST-C for Sign Language Production and Bidirectional Accessibility
- Title(参考訳): Beyond Words: AuralLLMとSignMST-Cによる手話生成と双方向アクセシビリティ
- Authors: Yulong Li, Yuxuan Zhang, Feilong Tang, Ming Hu, Zhixiang Lu, Haochen Xue, Jianghao Wu, Mian Zhou, Kang Dang, Chong Li, Yifang Wang, Imran Razzak, Jionglong Su,
- Abstract要約: 7200万人の聴覚障害者にとって手話は主要なコミュニケーション手段である。
我々はCNText2SignとCNSignを導入し、中国手話における双方向アクセシビリティシステムをサポートするための最初の統合データセットを構成する。
本稿では,CNText2Signのポーズデータを用いた疎結合アーキテクチャを用いたAuraLLMモデルを提案する。
- 参考スコア(独自算出の注目度): 27.244571101280236
- License:
- Abstract: Sign language is the primary communication mode for 72 million hearing-impaired individuals worldwide, necessitating effective bidirectional Sign Language Production and Sign Language Translation systems. However, functional bidirectional systems require a unified linguistic environment, hindered by the lack of suitable unified datasets, particularly those providing the necessary pose information for accurate Sign Language Production (SLP) evaluation. Concurrently, current SLP evaluation methods like back-translation ignore pose accuracy, and high-quality coordinated generation remains challenging. To create this crucial environment and overcome these challenges, we introduce CNText2Sign and CNSign, which together constitute the first unified dataset aimed at supporting bidirectional accessibility systems for Chinese sign language; CNText2Sign provides 15,000 natural language-to-sign mappings and standardized skeletal keypoints for 8,643 vocabulary items supporting pose assessment. Building upon this foundation, we propose the AuraLLM model, which leverages a decoupled architecture with CNText2Sign's pose data for novel direct gesture accuracy assessment. The model employs retrieval augmentation and Cascading Vocabulary Resolution to handle semantic mapping and out-of-vocabulary words and achieves all-scenario production with controllable coordination of gestures and facial expressions via pose-conditioned video synthesis. Concurrently, our Sign Language Translation model SignMST-C employs targeted self-supervised pretraining for dynamic feature capture, achieving new SOTA results on PHOENIX2014-T with BLEU-4 scores up to 32.08. AuraLLM establishes a strong performance baseline on CNText2Sign with a BLEU-4 score of 50.41 under direct evaluation.
- Abstract(参考訳): 手話は、世界中の7200万人の聴覚障害者にとって、効果的な双方向手話生成と手話翻訳システムを必要とする主要なコミュニケーションモードである。
しかし、機能的双方向システムは、適切な統合データセットの欠如、特に正確な手話生成(SLP)評価に必要なポーズ情報の提供によって妨げられる統一言語環境を必要とする。
同時に、バックトランスレーションのような現在のSLP評価手法では、ポーズの精度を無視し、高品質なコーディネート生成が困難である。
CNText2Signは15,000の自然言語-手話マッピングと8,643の語彙項目に対して標準化された骨格キーポイントを提供する。
そこで我々は,CNText2Signのポーズデータを用いた疎結合アーキテクチャを用いたAuraLLMモデルを提案する。
このモデルは検索強化とカスケーディング語彙分解を利用してセマンティックマッピングとアウト・オブ・ボキャブラリの単語を処理し、ポーズ条件のビデオ合成によってジェスチャーと表情の調整を制御可能な調整で全シナリオ生成を実現する。
同時に、我々の手話翻訳モデルSignMST-Cでは、動的特徴キャプチャーのための自己教師付き事前訓練を採用し、BLEU-4スコアが32.08であるPHOENIX2014-T上で新しいSOTA結果を達成する。
AuraLLM は CNText2Sign 上で強いパフォーマンスベースラインを確立し、BLEU-4 スコアは 50.41 である。
関連論文リスト
- Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。
これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。