論文の概要: Saudi Sign Language Translation Using T5
- arxiv url: http://arxiv.org/abs/2510.11183v1
- Date: Mon, 13 Oct 2025 09:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.291182
- Title: Saudi Sign Language Translation Using T5
- Title(参考訳): T5を用いたサウジアラビア手話翻訳
- Authors: Ali Alhejab, Tomas Zelezny, Lamya Alkanhal, Ivan Gruber, Yazeed Alharbi, Jakub Straka, Vaclav Javorek, Marek Hruz, Badriah Alkalifah, Ahmed Ali,
- Abstract要約: 本稿では,サウジアラビア手話(SSL)翻訳におけるT5モデルの適用について,新しいデータセットを用いて検討する。
SSLデータセットには3つの挑戦的なテストプロトコルが含まれている。
実験では,米国手話(ASL)データに対する事前学習の効果を,YouTubeASLデータセット上で事前学習したT5モデルとSSLデータセット上で直接学習したモデルとを比較して検討した。
- 参考スコア(独自算出の注目度): 2.9661113373175034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the application of T5 models for Saudi Sign Language (SSL) translation using a novel dataset. The SSL dataset includes three challenging testing protocols, enabling comprehensive evaluation across different scenarios. Additionally, it captures unique SSL characteristics, such as face coverings, which pose challenges for sign recognition and translation. In our experiments, we investigate the impact of pre-training on American Sign Language (ASL) data by comparing T5 models pre-trained on the YouTubeASL dataset with models trained directly on the SSL dataset. Experimental results demonstrate that pre-training on YouTubeASL significantly improves models' performance (roughly $3\times$ in BLEU-4), indicating cross-linguistic transferability in sign language models. Our findings highlight the benefits of leveraging large-scale ASL data to improve SSL translation and provide insights into the development of more effective sign language translation systems. Our code is publicly available at our GitHub repository.
- Abstract(参考訳): 本稿では,サウジアラビア手話(SSL)翻訳におけるT5モデルの適用について,新しいデータセットを用いて検討する。
SSLデータセットには3つの挑戦的なテストプロトコルが含まれている。
さらに、顔カバーのようなユニークなSSL特性をキャプチャし、手話認識と翻訳の課題を提起する。
実験では,米国手話(ASL)データに対する事前学習の効果を,YouTubeASLデータセット上で事前学習したT5モデルとSSLデータセット上で直接学習したモデルとを比較して検討した。
実験の結果、YouTubeASLでの事前学習はモデルの性能を著しく向上させ(約$3\times$ in BLEU-4)、手話モデルにおける言語間変換可能性を示している。
本研究は,SSL翻訳の改善と,より効果的な手話翻訳システムの開発に関する知見を提供するために,大規模ASLデータを活用する利点を浮き彫りにしている。
私たちのコードはGitHubリポジトリで公開されています。
関連論文リスト
- Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition [2.409285779772107]
手話認識システムは手話のジェスチャーを認識し、それを音声言語に翻訳することを目的としている。
SLRの主な課題の1つは、注釈付きデータセットの不足である。
本研究では, 擬似ラベル法を用いたSLRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-23T11:59:52Z) - Where Did Your Model Learn That? Label-free Influence for Self-supervised Learning [0.48933451909251774]
自己教師型学習は、大規模なラベルなしデータセットからの学習に革命をもたらした。
事前学習データと学習表現との序文的関係はいまだに理解されていない。
SSLに適した影響関数を定義するための,新規かつラベルフリーなアプローチであるEmpfect-SSLを紹介する。
論文 参考訳(メタデータ) (2024-12-22T21:43:56Z) - The American Sign Language Knowledge Graph: Infusing ASL Models with Linguistic Knowledge [6.481946043182915]
専門的な言語知識の12つの情報源からコンパイルされたASLKG(American Sign Language Knowledge Graph)を紹介する。
我々は、ASLKGを用いて、3つのASL理解タスクのニューロシンボリックモデルをトレーニングし、ISRで91%のアキュラシーを達成し、14%の未確認のサインのセマンティックな特徴を予測し、36%のYoutube-ASLビデオのトピックを分類した。
論文 参考訳(メタデータ) (2024-11-06T00:16:16Z) - Diverse Sign Language Translation [27.457810402402387]
本稿では,手話ビデオの多種多様かつ正確な翻訳を実現するために,DivSLT(Diverse Sign Language Translation)タスクを導入する。
我々は大規模言語モデル(LLM)を用いて、広く使われているCSL-DailyとPHOENIX14T SLTデータセットの複数の参照を生成する。
具体的には、DivSLTモデルが多様な翻訳を実現するためのマルチ参照トレーニング戦略について検討する。
論文 参考訳(メタデータ) (2024-10-25T14:28:20Z) - Scaling Sign Language Translation [38.43594795927101]
手話翻訳(SLT)は、ビデオ中の手話からテキスト中の音声言語への情報を翻訳する問題に対処する。
本稿では,事前学習データ,モデルサイズ,翻訳方向の数を拡大することにより,SLTのフロンティアを推し進める。
実験では、バニラベースラインよりも大幅に品質が向上し、以前のSOTA(State-of-the-art)をはるかに上回った。
論文 参考訳(メタデータ) (2024-07-16T15:36:58Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - End-to-end Generative Zero-shot Learning via Few-shot Learning [76.9964261884635]
ゼロショット学習(ZSL)の最先端アプローチでは、生成ネットをトレーニングし、提供されたメタデータに条件付きサンプルを合成する。
本稿では,このような手法をバックボーンとして使用し,合成した出力をFew-Shot Learningアルゴリズムに供給するエンドツーエンド生成ZSLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。