Fugu-MT 論文翻訳(概要): SignDATA: Data Pipeline for Sign Language Translation

論文の概要: SignDATA: Data Pipeline for Sign Language Translation

arxiv url: http://arxiv.org/abs/2604.20357v1
Date: Wed, 22 Apr 2026 08:58:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.053296
Title: SignDATA: Data Pipeline for Sign Language Translation
Title（参考訳）: SignDATA:手話翻訳のためのデータパイプライン
Authors: Kuanwei Chen, Tingyi Lin,
Abstract要約: SignDATAは、手話コーパスのための設定駆動の事前処理ツールキットである。システムは、取得、表示、人物のローカライゼーション、クリッピング、トリミング、ランドマーク抽出、正規化、WebDatasetエクスポートを行うポーズレシピと、シグナークロッピングされたビデオパッケージでポーズ抽出を置き換えるビデオレシピの2つのエンドツーエンドレシピをサポートする。バックエンド比較,事前処理,およびデータセット上でのプライバシ対応のビデオ生成を中心にした,研究指向の評価設計によるツールキットの検証を行う。
参考スコア（独自算出の注目度）: 0.5371337604556311
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign-language datasets are difficult to preprocess consistently because they vary in annotation schema, clip timing, signer framing, and privacy constraints. Existing work usually reports downstream models, while the preprocessing pipeline that converts raw video into training-ready pose or video artifacts remains fragmented, backend-specific, and weakly documented. We present SignDATA, a config-driven preprocessing toolkit that standardizes heterogeneous sign-language corpora into comparable outputs for learning. The system supports two end-to-end recipes: a pose recipe that performs acquisition, manifesting, person localization, clipping, cropping, landmark extraction, normalization, and WebDataset export, and a video recipe that replaces pose extraction with signer-cropped video packaging. SignDATA exposes interchangeable MediaPipe and MMPose backends behind a common interface, typed job schemas, experiment-level overrides, and per-stage checkpointing with config- and manifest-aware hashes. We validate the toolkit through a research-oriented evaluation design centered on backend comparison, preprocessing ablations, and privacy-aware video generation on datasets. Our contribution is a reproducible preprocessing layer for sign-language research that makes extractor choice, normalization policy, and privacy tradeoffs explicit, configurable, and empirically comparable.Code is available at https://github.com/balaboom123/signdata-slt.
Abstract（参考訳）: アノテーションスキーマ、クリップタイミング、シグナフレーミング、プライバシ制約が異なるため、手話データセットを一貫して前処理することは難しい。既存の作業は通常、下流のモデルをレポートするが、生のビデオをトレーニング可能なポーズやビデオアーティファクトに変換する前処理パイプラインは、断片化され、バックエンド固有であり、文書化が弱いままである。本稿では、多種多様な手話コーパスを学習用出力に標準化する、構成駆動型前処理ツールキットSignDATAを提案する。システムは、取得、表示、人物のローカライゼーション、クリッピング、トリミング、ランドマーク抽出、正規化、WebDatasetエクスポートを行うポーズレシピと、シグナークロッピングされたビデオパッケージでポーズ抽出を置き換えるビデオレシピの2つのエンドツーエンドレシピをサポートする。 SignDATAは、共通のインターフェースの背後にある交換可能なMediaPipeとMMPoseバックエンド、タイプされたジョブスキーマ、実験レベルのオーバーライド、設定とマニフェストを意識したハッシュによるステージごとのチェックポイントを公開する。バックエンド比較,事前処理,およびデータセット上でのプライバシ対応のビデオ生成を中心にした,研究指向の評価設計によるツールキットの検証を行う。私たちのコントリビューションは、抽出器の選択、正規化ポリシー、プライバシトレードオフを明示し、設定可能、そして実証的に同等にするための手話研究のための再現可能な事前処理レイヤです。

論文の概要: SignDATA: Data Pipeline for Sign Language Translation

関連論文リスト