論文の概要: Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and Prospects
- arxiv url: http://arxiv.org/abs/2511.21533v1
- Date: Wed, 26 Nov 2025 16:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.186893
- Title: Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and Prospects
- Title(参考訳): Banglaの手話翻訳 - データセット作成の課題,ベンチマーク,今後の展望
- Authors: Husne Ara Rubaiyeat, Hasan Mahmud, Md Kamrul Hasan,
- Abstract要約: Bangla Sign Language Translation (BdSLT) は、言語自体が非常に低リソースであるため、厳しい制約が課されている。
BdSLTの標準文レベルのデータセット作成は、聴覚障害や難聴者のためのAIベースの補助ツールを開発する上で非常に重要である。
- 参考スコア(独自算出の注目度): 2.4482532609799543
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bangla Sign Language Translation (BdSLT) has been severely constrained so far as the language itself is very low resource. Standard sentence level dataset creation for BdSLT is of immense importance for developing AI based assistive tools for deaf and hard of hearing people of Bangla speaking community. In this paper, we present a dataset, IsharaKhobor , and two subset of it for enabling research. We also present the challenges towards developing the dataset and present some way forward by benchmarking with landmark based raw and RQE embedding. We do some ablation on vocabulary restriction and canonicalization of the same within the dataset, which resulted in two more datasets, IsharaKhobor_small and IsharaKhobor_canonical_small. The dataset is publicly available at: www.kaggle.com/datasets/hasanssl/isharakhobor [1].
- Abstract(参考訳): Bangla Sign Language Translation (BdSLT) は、言語自体が非常に低リソースであるため、厳しい制約が課されている。
BdSLTの標準文レベルのデータセット作成は、難聴者やバングラ語話者の難聴者のためのAIベースの補助ツールを開発する上で非常に重要である。
本稿では,IsharaKhoborというデータセットと,研究を可能にするための2つのサブセットを提案する。
また、データセット開発における課題を提示し、ランドマークベースの生とRQEの埋め込みをベンチマークすることで、前進の道を示す。
その結果,IsharaKhobor_smallとIsharaKhobor_canonical_smallの2つのデータセットが得られた。
データセットは、www.kaggle.com/datasets/hasanssl/isharakhobor [1]で公開されている。
関連論文リスト
- End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data [5.950263765640278]
本稿では、弱いラベル付きデータを用いて音声からテキストへの翻訳モデルを構築することができるという仮説を考察する。
我々は、最先端の文エンコーダを用いて、Bitextマイニングの助けを借りてデータセットを構築した。
以上の結果から,STシステムはマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
論文 参考訳(メタデータ) (2025-06-19T12:11:01Z) - Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla [0.0]
我々は大規模なBangla VQAデータセットであるChitroJeraを導入し、多種多様なローカルなデータソースから15万以上のサンプルを収集した。
我々は,テキストエンコーダ,画像エンコーダ,マルチモーダルモデル,新しいデュアルエンコーダモデルの性能を評価する。
既存のデータセットの未開発状況を考えると、Banglaにおけるビジョンランゲージタスクの範囲を拡大するChitroJeraを想定する。
論文 参考訳(メタデータ) (2024-10-19T05:45:21Z) - BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla [0.0]
本研究は,バングラ語用多言語LLMにおけるステレオタイプ的社会的バイアスを評価するためのデータセットであるBanStereoSetを提示する。
私たちのデータセットは、人種、職業、性別、年齢、職業の美しさ、地域、カースト、宗教の9つのカテゴリーにまたがる1,194の文で構成されています。
論文 参考訳(メタデータ) (2024-09-18T02:02:30Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。