Fugu-MT 論文翻訳(概要): AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software

論文の概要: AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software

arxiv url: http://arxiv.org/abs/2411.12865v2
Date: Sat, 23 Nov 2024 12:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.28312
Title: AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software
Title（参考訳）: AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software
Authors: Nigar Alishzade, Jamaladdin Hasanov,
Abstract要約: データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。 AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Sign language processing technology development relies on extensive and reliable datasets, instructions, and ethical guidelines. We present a comprehensive Azerbaijani Sign Language Dataset (AzSLD) collected from diverse sign language users and linguistic parameters to facilitate advancements in sign recognition and translation systems and support the local sign language community. The dataset was created within the framework of a vision-based AzSL translation project. This study introduces the dataset as a summary of the fingerspelling alphabet and sentence- and word-level sign language datasets. The dataset was collected from signers of different ages, genders, and signing styles, with videos recorded from two camera angles to capture each sign in full detail. This approach ensures robust training and evaluation of gesture recognition models. AzSLD contains 30,000 videos, each carefully annotated with accurate sign labels and corresponding linguistic translations. The dataset is accompanied by technical documentation and source code to facilitate its use in training and testing. This dataset offers a valuable resource of labeled data for researchers and developers working on sign language recognition, translation, or synthesis. Ethical guidelines were strictly followed throughout the project, with all participants providing informed consent for collecting, publishing, and using the data.
Abstract（参考訳）: 手話処理技術の開発は、広範囲で信頼性の高いデータセット、指示、倫理的ガイドラインに依存している。本稿では,多種多様な手話利用者と言語パラメータから収集したアゼルバイジャン手話データセット(AzSLD)について述べる。データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。そこで本研究では,指を打つアルファベットと文・語レベルの手話データセットの要約としてデータセットを紹介した。データセットは年齢、性別、署名スタイルの異なるシグナーから収集され、2つのカメラアングルから撮影したビデオで、それぞれのシグナーを詳細に捉えている。このアプローチは、ジェスチャー認識モデルの堅牢なトレーニングと評価を保証する。 AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。データセットには、トレーニングやテストでの使用を容易にするために、技術ドキュメントとソースコードが添付されている。このデータセットは、手話認識、翻訳、合成に取り組んでいる研究者や開発者にとって、ラベル付きデータの貴重なリソースを提供する。倫理的ガイドラインはプロジェクト全体を通して厳格に守られ、すべての参加者がデータを収集し、公開し、使用するためのインフォームド・コンセンサスを提供した。

関連論文リスト

iLSU-T: an Open Dataset for Uruguayan Sign Language Translation [2.0272430076690027]
iLSU Tは、ウルグアイの手話RGBビデオに音声とテキストの書き起こしを加えたオープンデータセットである。このタイプのマルチモーダルおよびキュレートされたデータは、手話処理のためのツールを理解したり生成したりするための新しいアプローチを開発する上で最重要である。
論文参考訳（メタデータ） (2025-07-07T18:11:21Z)
Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。 Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文参考訳（メタデータ） (2025-05-15T16:31:49Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。 SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文参考訳（メタデータ） (2024-09-02T08:56:12Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文参考訳（メタデータ） (2024-05-31T07:51:19Z)
LSA64: An Argentinian Sign Language Dataset [42.27617228521691]
本稿では,アルゼンチン手話(LSA)から64の記号のデータセットを提案する。 LSA64と呼ばれるこのデータセットには、10人の被験者が記録した64種類のLAA符号の3200の動画が含まれている。また、前処理したデータセットも提示し、そこから信号の移動、位置、手形に関する統計を計算した。
論文参考訳（メタデータ） (2023-10-26T14:37:01Z)
ISLTranslate: Dataset for Translating Indian Sign Language [4.836352379142503]
In this paper introduced ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) with 31k ISL- English sentence/phrase pairs。私たちの知る限りでは、これは連続したインド手話のための翻訳データセットとしては最大のものです。
論文参考訳（メタデータ） (2023-07-11T17:06:52Z)
Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文参考訳（メタデータ） (2023-05-23T21:00:42Z)
ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文参考訳（メタデータ） (2023-04-12T15:52:53Z)
On the Importance of Sign Labeling: The Hamburg Sign Language Notation System Case Study [5.849513679510834]
オープンサイン言語コーパスのメンテナが提供したHamNoSysラベルを5つの手話言語で分析する。本研究は,現在のラベリング手法の限界について,貴重な知見を提供するものである。
論文参考訳（メタデータ） (2023-01-19T11:11:57Z)
LSA-T: The first continuous Argentinian Sign Language dataset for Sign Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文参考訳（メタデータ） (2022-11-14T14:46:44Z)
ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。受講生は45名、受講生は45名、受講生は45名であった。データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文参考訳（メタデータ） (2022-07-08T17:18:49Z)
Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文参考訳（メタデータ） (2020-10-08T14:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。