Fugu-MT 論文翻訳(概要): Beyond Words: AuralLLM and SignMST-C for Sign Language Production and Bidirectional Accessibility

論文の概要: Beyond Words: AuralLLM and SignMST-C for Sign Language Production and Bidirectional Accessibility

arxiv url: http://arxiv.org/abs/2501.00765v2
Date: Sun, 13 Apr 2025 12:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 19:48:45.570417
Title: Beyond Words: AuralLLM and SignMST-C for Sign Language Production and Bidirectional Accessibility
Title（参考訳）: Beyond Words: AuralLLMとSignMST-Cによる手話生成と双方向アクセシビリティ
Authors: Yulong Li, Yuxuan Zhang, Feilong Tang, Ming Hu, Zhixiang Lu, Haochen Xue, Jianghao Wu, Mian Zhou, Kang Dang, Chong Li, Yifang Wang, Imran Razzak, Jionglong Su,
Abstract要約: 7200万人の聴覚障害者にとって手話は主要なコミュニケーション手段である。我々はCNText2SignとCNSignを導入し、中国手話における双方向アクセシビリティシステムをサポートするための最初の統合データセットを構成する。本稿では,CNText2Signのポーズデータを用いた疎結合アーキテクチャを用いたAuraLLMモデルを提案する。
参考スコア（独自算出の注目度）: 27.244571101280236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign language is the primary communication mode for 72 million hearing-impaired individuals worldwide, necessitating effective bidirectional Sign Language Production and Sign Language Translation systems. However, functional bidirectional systems require a unified linguistic environment, hindered by the lack of suitable unified datasets, particularly those providing the necessary pose information for accurate Sign Language Production (SLP) evaluation. Concurrently, current SLP evaluation methods like back-translation ignore pose accuracy, and high-quality coordinated generation remains challenging. To create this crucial environment and overcome these challenges, we introduce CNText2Sign and CNSign, which together constitute the first unified dataset aimed at supporting bidirectional accessibility systems for Chinese sign language; CNText2Sign provides 15,000 natural language-to-sign mappings and standardized skeletal keypoints for 8,643 vocabulary items supporting pose assessment. Building upon this foundation, we propose the AuraLLM model, which leverages a decoupled architecture with CNText2Sign's pose data for novel direct gesture accuracy assessment. The model employs retrieval augmentation and Cascading Vocabulary Resolution to handle semantic mapping and out-of-vocabulary words and achieves all-scenario production with controllable coordination of gestures and facial expressions via pose-conditioned video synthesis. Concurrently, our Sign Language Translation model SignMST-C employs targeted self-supervised pretraining for dynamic feature capture, achieving new SOTA results on PHOENIX2014-T with BLEU-4 scores up to 32.08. AuraLLM establishes a strong performance baseline on CNText2Sign with a BLEU-4 score of 50.41 under direct evaluation.
Abstract（参考訳）: 手話は、世界中の7200万人の聴覚障害者にとって、効果的な双方向手話生成と手話翻訳システムを必要とする主要なコミュニケーションモードである。しかし、機能的双方向システムは、適切な統合データセットの欠如、特に正確な手話生成(SLP)評価に必要なポーズ情報の提供によって妨げられる統一言語環境を必要とする。同時に、バックトランスレーションのような現在のSLP評価手法では、ポーズの精度を無視し、高品質なコーディネート生成が困難である。 CNText2Signは15,000の自然言語-手話マッピングと8,643の語彙項目に対して標準化された骨格キーポイントを提供する。そこで我々は,CNText2Signのポーズデータを用いた疎結合アーキテクチャを用いたAuraLLMモデルを提案する。このモデルは検索強化とカスケーディング語彙分解を利用してセマンティックマッピングとアウト・オブ・ボキャブラリの単語を処理し、ポーズ条件のビデオ合成によってジェスチャーと表情の調整を制御可能な調整で全シナリオ生成を実現する。同時に、我々の手話翻訳モデルSignMST-Cでは、動的特徴キャプチャーのための自己教師付き事前訓練を採用し、BLEU-4スコアが32.08であるPHOENIX2014-T上で新しいSOTA結果を達成する。 AuraLLM は CNText2Sign 上で強いパフォーマンスベースラインを確立し、BLEU-4 スコアは 50.41 である。

関連論文リスト

Using Sign Language Production as Data Augmentation to enhance Sign Language Translation [31.770455887142095]
手話データセットは、しばしば話される言語データセットよりも桁違いに小さい。我々は手話生産の最近の進歩を活用して既存の手話データセットを強化することを提案する。提案手法は,既存のデータセットを効果的に拡張し,手話翻訳モデルの性能を最大19%向上させることができることを示す。
論文参考訳（メタデータ） (2025-06-11T11:56:51Z)
Generative Sign-description Prompts with Multi-positive Contrastive Learning for Sign Language Recognition [9.044039469025009]
本稿では,GSP-MC法を提案する。 GSP-MC法はまた、二重エンコーダアーキテクチャを用いて、階層的なスケルトン特徴と複数のテキスト記述を双方向にアライメントする。実験では、中国のSLR500(97.1%)とトルコのAUTSLデータセット(97.07%の精度)の既存の手法に対する最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2025-05-05T00:57:57Z)
A multitask transformer to sign language translation using motion gesture primitives [0.6249768559720122]
この研究は、より適切な翻訳を実現するための光沢学習表現を含むマルチタスクトランスフォーマーアーキテクチャを導入している。提案手法は,CoL-SLTDデータセットを用いて評価した最先端技術よりも優れ,分割1で72,64%,分割2で14,64%のBLEU-4を実現する。
論文参考訳（メタデータ） (2025-03-25T13:53:25Z)
Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies [6.403291706982091]
独立した手話認識は、スケーラブルな言語技術にとって不可欠である。言語をまたいで一般化し,語彙を進化させるワンショット学習手法を提案する。我々は、異なる言語から10,235のユニークな記号を含む大きな辞書上で50.8%のワンショットMRRを含む最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-27T15:07:51Z)
Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。 How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文参考訳（メタデータ） (2024-07-04T13:53:50Z)
A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文参考訳（メタデータ） (2024-07-03T07:12:36Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-05-07T10:00:38Z)
Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文参考訳（メタデータ） (2023-08-21T15:58:47Z)
Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文参考訳（メタデータ） (2023-07-27T10:59:18Z)
LSA-T: The first continuous Argentinian Sign Language dataset for Sign Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文参考訳（メタデータ） (2022-11-14T14:46:44Z)
Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文参考訳（メタデータ） (2022-05-24T13:40:45Z)
All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文参考訳（メタデータ） (2022-01-05T13:45:09Z)
Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。これまでの研究では、これは表現が十分に整合していないためです。本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文参考訳（メタデータ） (2021-03-18T21:17:58Z)
Global-local Enhancement Network for NMFs-aware Sign Language Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。 2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文参考訳（メタデータ） (2020-08-24T13:28:55Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。