論文の概要: Direct Translation between Sign Languages
- arxiv url: http://arxiv.org/abs/2605.20588v1
- Date: Wed, 20 May 2026 00:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.421732
- Title: Direct Translation between Sign Languages
- Title(参考訳): 手話間の直接翻訳
- Authors: Zetian Wu, Bowen Xie, Wuyang Meng, Milan Gautam, Stefan Lee, Liang Huang,
- Abstract要約: サイン・ツー・サインの翻訳は、世界の15億人の聴覚障害者が言語障壁を越えてコミュニケーションするのに役立つ。
逆変換を用いて、不整合個別言語音声信号コーパスから合成符号対を生成する。
アメリカ手話(ASL)、中国手話(CSL)、ドイツ手話(DGS)の合成合成されたペアセットにおいて、我々の直接S2S法は幾何学的手話誤り量に基づくカスケードベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 13.057102328925177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of sign language translation has witnessed significant progress in the translation between sign and spoken languages, but the translation between sign languages remains largely unexplored and out of reach. The latter can help 1.5 billion deaf and hard-of-hearing (DHH) people worldwide communicate across language barriers without relying on hearing interpreters or written-language fluency. The cascade approach composing separate sign-to-text, text-to-text, and text-to-sign systems suffers from error propagation and extra latency as well as the loss of information unique in the visual modality. We aim to develop direct sign-to-sign translation. However, a large-scale open-domain parallel corpus has not been curated between sign languages. To enable direct translation between sign language utterances, we use back-translation to produce synthetic sign-sign pairs from unaligned individual language utterance-sign corpora. Using this data, we jointly train a single MBART-based model for both text->sign (T2S) and sign->sign (S2S). On synthetically generated paired sets between American Sign Language (ASL), Chinese Sign Language (CSL), and German Sign Language (DGS), our direct S2S method outperforms the cascaded baseline on geometric sign error metrics (20% lower DTW-aligned MPJPE) and language matching metrics after predicted sign utterances are translated back to sentences (50% high BLEU-4) while achieving a roughly 2.3* speedup. On a small set of pre-existing cross-lingual sign data, we find similar improvements for our proposed method.
- Abstract(参考訳): 手話翻訳の分野は、手話と話し言葉の翻訳において顕著な進歩をみせたが、手話間の翻訳はほとんど探索されておらず、手が届かないままである。
後者は15億人の難聴者や難聴者(DHH)が、話し言葉の障壁を越えてコミュニケーションするのに役立つ。
個別のサイン・トゥ・テキスト・テキスト・テキスト・トゥ・サイン・システムを構成するカスケード・アプローチは、エラーの伝搬と余分な遅延に悩まされ、視覚的モダリティに特有の情報の喪失に悩まされる。
我々はサイン・ツー・サインの翻訳を開発することを目指している。
しかし、大規模なオープンドメイン並列コーパスは手話の間ではキュレーションされていない。
そこで我々は,手話音声間の直接翻訳を可能にするために,手話音声の合成符号対を生成する。
このデータを用いて,テキスト>署名(T2S)とサイン>署名(S2S)の双方に対して,単一のMBARTベースのモデルを共同でトレーニングする。
アメリカ手話(ASL)、中国手話(CSL)、ドイツ手話(DGS)の合成合成されたペアセットにおいて、我々の直接S2S法は、幾何学的手話誤差測定(20%低いDTW対応MPJPE)と予測された手話発話後の言語マッチング測定(50%高いBLEU-4)を文に変換し、約2.3*のスピードアップを達成する。
既存の言語間符号データの小さなセットにおいて,提案手法に類似した改良点が得られた。
関連論文リスト
- Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。
i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文 参考訳(メタデータ) (2025-12-08T21:05:46Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。