論文の概要: iLSU-T: an Open Dataset for Uruguayan Sign Language Translation
- arxiv url: http://arxiv.org/abs/2507.21104v1
- Date: Mon, 07 Jul 2025 18:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.876656
- Title: iLSU-T: an Open Dataset for Uruguayan Sign Language Translation
- Title(参考訳): iLSU-T:ウルグアイ手話翻訳のためのオープンデータセット
- Authors: Ariel E. Stassi, Yanina Boria, J. Matías Di Martino, Gregory Randall,
- Abstract要約: iLSU Tは、ウルグアイの手話RGBビデオに音声とテキストの書き起こしを加えたオープンデータセットである。
このタイプのマルチモーダルおよびキュレートされたデータは、手話処理のためのツールを理解したり生成したりするための新しいアプローチを開発する上で最重要である。
- 参考スコア(独自算出の注目度): 2.0272430076690027
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic sign language translation has gained particular interest in the computer vision and computational linguistics communities in recent years. Given each sign language country particularities, machine translation requires local data to develop new techniques and adapt existing ones. This work presents iLSU T, an open dataset of interpreted Uruguayan Sign Language RGB videos with audio and text transcriptions. This type of multimodal and curated data is paramount for developing novel approaches to understand or generate tools for sign language processing. iLSU T comprises more than 185 hours of interpreted sign language videos from public TV broadcasting. It covers diverse topics and includes the participation of 18 professional interpreters of sign language. A series of experiments using three state of the art translation algorithms is presented. The aim is to establish a baseline for this dataset and evaluate its usefulness and the proposed pipeline for data processing. The experiments highlight the need for more localized datasets for sign language translation and understanding, which are critical for developing novel tools to improve accessibility and inclusion of all individuals. Our data and code can be accessed.
- Abstract(参考訳): 近年、手話の自動翻訳はコンピュータビジョンや計算言語学のコミュニティに特に関心を寄せている。
各手話国の特徴から、機械翻訳は、新しい技術を開発し、既存の技術に適応するために、ローカルデータを必要とする。
この研究は、音声とテキストの書き起こしを備えたウルグアイ手話RGBビデオのオープンデータセットであるiLSU Tを提示する。
このタイプのマルチモーダルおよびキュレートされたデータは、手話処理のためのツールを理解したり生成したりするための新しいアプローチを開発する上で最重要である。
iLSU Tは、公開テレビ放送の185時間以上の手話ビデオで構成されている。
多様なトピックをカバーし、18人の手話のプロの通訳も参加している。
3つの最先端翻訳アルゴリズムを用いた一連の実験について述べる。
目的は、このデータセットのベースラインを確立し、その有用性とデータ処理のための提案されたパイプラインを評価することである。
この実験は、手話の翻訳と理解のためのより局所的なデータセットの必要性を強調している。
私たちのデータやコードにアクセスできます。
関連論文リスト
- Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。
署名ビデオと追加のコンテキストキューを組み込む。
文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-01-16T18:59:03Z) - AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software [0.0]
データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。
AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
論文 参考訳(メタデータ) (2024-11-19T21:15:47Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。