論文の概要: Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph
- arxiv url: http://arxiv.org/abs/2508.10687v1
- Date: Thu, 14 Aug 2025 14:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.357809
- Title: Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph
- Title(参考訳): 連続バングラ手話翻訳:グロスアノテーションの拡張とグラフの支援
- Authors: Safaeid Hossain Arib, Rabeya Akter, Sejuti Rahman,
- Abstract要約: 話し言葉を優先する社会では、手話はしばしば過小評価に直面し、社会的排除につながる。
Continuous Bangla Sign Language Translationプロジェクトは、翻訳方法を強化することで、このギャップに対処することを目的としている。
私たちのコントリビューションには、アーキテクチャの融合、さまざまな融合戦略の探索、さまざまな手話データセット上での新たな最先端のパフォーマンスの実現などが含まれています。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of individuals worldwide are affected by deafness and hearing impairment. Sign language serves as a sophisticated means of communication for the deaf and hard of hearing. However, in societies that prioritize spoken languages, sign language often faces underestimation, leading to communication barriers and social exclusion. The Continuous Bangla Sign Language Translation project aims to address this gap by enhancing translation methods. While recent approaches leverage transformer architecture for state-of-the-art results, our method integrates graph-based methods with the transformer architecture. This fusion, combining transformer and STGCN-LSTM architectures, proves more effective in gloss-free translation. Our contributions include architectural fusion, exploring various fusion strategies, and achieving a new state-of-the-art performance on diverse sign language datasets, namely RWTH-PHOENIX-2014T, CSL-Daily, How2Sign, and BornilDB v1.0. Our approach demonstrates superior performance compared to current translation outcomes across all datasets, showcasing notable improvements of BLEU-4 scores of 4.01, 2.07, and 0.5, surpassing those of GASLT, GASLT and slt_how2sign in RWTH-PHOENIX-2014T, CSL-Daily, and How2Sign, respectively. Also, we introduce benchmarking on the BornilDB v1.0 dataset for the first time. Our method sets a benchmark for future research, emphasizing the importance of gloss-free translation to improve communication accessibility for the deaf and hard of hearing.
- Abstract(参考訳): 世界中で何百万人もの人が聴覚障害や聴覚障害に悩まされている。
手話は難聴者や難聴者のための洗練されたコミュニケーション手段として機能する。
しかし、話し言葉を優先する社会では、手話はしばしば過小評価に直面し、コミュニケーション障壁や社会的排除につながる。
Continuous Bangla Sign Language Translationプロジェクトは、翻訳方法を強化することで、このギャップに対処することを目的としている。
近年の手法では, 変圧器アーキテクチャを最先端の結果に活用しているが, 本手法では, グラフベースの手法と変圧器アーキテクチャを統合する。
この融合は変換器とSTGCN-LSTMアーキテクチャを組み合わせることで、光沢のない翻訳においてより効果的であることを示す。
私たちのコントリビューションには、アーキテクチャの融合、様々な融合戦略の探索、さまざまな手話データセット、すなわちRWTH-PHOENIX-2014T、CSL-Daily、How2Sign、BonnilDB v1.0における新しい最先端のパフォーマンスの実現が含まれています。
提案手法は, BLEU-4スコアの4.01, 2.07, 0.5に対して, RWTH-PHOENIX-2014T, CSL-Daily, How2SignのGASLT, GASLT, slt_how2signをそれぞれ上回り, BLEU-4スコアの顕著な改善を示した。
また、BonilDB v1.0データセットのベンチマークを初めて紹介します。
本手法は,難聴者や難聴者に対するコミュニケーションアクセシビリティを向上させるために,光沢のない翻訳の重要性を強調し,将来の研究のためのベンチマークを設定する。
関連論文リスト
- A multitask transformer to sign language translation using motion gesture primitives [0.6249768559720122]
この研究は、より適切な翻訳を実現するための光沢学習表現を含むマルチタスクトランスフォーマーアーキテクチャを導入している。
提案手法は,CoL-SLTDデータセットを用いて評価した最先端技術よりも優れ,分割1で72,64%,分割2で14,64%のBLEU-4を実現する。
論文 参考訳(メタデータ) (2025-03-25T13:53:25Z) - Spatio-temporal transformer to support automatic sign language translation [0.0]
本稿では,時間的動きのジェスチャーを符号化し,局所的・長距離的空間情報を保存するトランスフォーマーアーキテクチャを提案する。
提案手法はコロンビア手話翻訳データセットで検証された。
論文 参考訳(メタデータ) (2025-02-04T18:59:19Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。