論文の概要: SignDATA: Data Pipeline for Sign Language Translation
- arxiv url: http://arxiv.org/abs/2604.20357v1
- Date: Wed, 22 Apr 2026 08:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.053296
- Title: SignDATA: Data Pipeline for Sign Language Translation
- Title(参考訳): SignDATA:手話翻訳のためのデータパイプライン
- Authors: Kuanwei Chen, Tingyi Lin,
- Abstract要約: SignDATAは、手話コーパスのための設定駆動の事前処理ツールキットである。
システムは、取得、表示、人物のローカライゼーション、クリッピング、トリミング、ランドマーク抽出、正規化、WebDatasetエクスポートを行うポーズレシピと、シグナークロッピングされたビデオパッケージでポーズ抽出を置き換えるビデオレシピの2つのエンドツーエンドレシピをサポートする。
バックエンド比較,事前処理,およびデータセット上でのプライバシ対応のビデオ生成を中心にした,研究指向の評価設計によるツールキットの検証を行う。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign-language datasets are difficult to preprocess consistently because they vary in annotation schema, clip timing, signer framing, and privacy constraints. Existing work usually reports downstream models, while the preprocessing pipeline that converts raw video into training-ready pose or video artifacts remains fragmented, backend-specific, and weakly documented. We present SignDATA, a config-driven preprocessing toolkit that standardizes heterogeneous sign-language corpora into comparable outputs for learning. The system supports two end-to-end recipes: a pose recipe that performs acquisition, manifesting, person localization, clipping, cropping, landmark extraction, normalization, and WebDataset export, and a video recipe that replaces pose extraction with signer-cropped video packaging. SignDATA exposes interchangeable MediaPipe and MMPose backends behind a common interface, typed job schemas, experiment-level overrides, and per-stage checkpointing with config- and manifest-aware hashes. We validate the toolkit through a research-oriented evaluation design centered on backend comparison, preprocessing ablations, and privacy-aware video generation on datasets. Our contribution is a reproducible preprocessing layer for sign-language research that makes extractor choice, normalization policy, and privacy tradeoffs explicit, configurable, and empirically comparable.Code is available at https://github.com/balaboom123/signdata-slt.
- Abstract(参考訳): アノテーションスキーマ、クリップタイミング、シグナフレーミング、プライバシ制約が異なるため、手話データセットを一貫して前処理することは難しい。
既存の作業は通常、下流のモデルをレポートするが、生のビデオをトレーニング可能なポーズやビデオアーティファクトに変換する前処理パイプラインは、断片化され、バックエンド固有であり、文書化が弱いままである。
本稿では、多種多様な手話コーパスを学習用出力に標準化する、構成駆動型前処理ツールキットSignDATAを提案する。
システムは、取得、表示、人物のローカライゼーション、クリッピング、トリミング、ランドマーク抽出、正規化、WebDatasetエクスポートを行うポーズレシピと、シグナークロッピングされたビデオパッケージでポーズ抽出を置き換えるビデオレシピの2つのエンドツーエンドレシピをサポートする。
SignDATAは、共通のインターフェースの背後にある交換可能なMediaPipeとMMPoseバックエンド、タイプされたジョブスキーマ、実験レベルのオーバーライド、設定とマニフェストを意識したハッシュによるステージごとのチェックポイントを公開する。
バックエンド比較,事前処理,およびデータセット上でのプライバシ対応のビデオ生成を中心にした,研究指向の評価設計によるツールキットの検証を行う。
私たちのコントリビューションは、抽出器の選択、正規化ポリシー、プライバシトレードオフを明示し、設定可能、そして実証的に同等にするための手話研究のための再現可能な事前処理レイヤです。
関連論文リスト
- Face-to-Face: A Video Dataset for Multi-Person Interaction Modeling [53.176242285107485]
我々は2人のトークショー交換の70時間14kclipデータセットであるtextbfFace-to-Face with Jimmy Fallon (F2F-JF)を紹介した。
半自動パイプラインは、多人数追跡、音声ダイアリゼーション、軽量な人間の検証を組み合わせて、時間的に整列したホスト/ゲストトラックを抽出する。
論文 参考訳(メタデータ) (2026-03-16T03:50:02Z) - TokenSmith: Streamlining Data Editing, Search, and Inspection for Large-Scale Language Model Training and Interpretability [39.43508569004967]
TokenSmithは、データセットのインタラクティブな編集、検査、分析のためのオープンソースライブラリである。
GPT-NeoX、Megatron、NVIDIA NeMoといったMegatronスタイルの事前トレーニングフレームワークで使用されるデータセットをサポートする。
TokenSmithはGitHubにホストされており、ドキュメント、チュートリアル、デモビデオが付属している。
論文 参考訳(メタデータ) (2025-07-25T16:37:58Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition [54.938128496934695]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Doc2Dict: Information Extraction as Text Generation [0.0]
Doc2Dictはドキュメントレベルの情報を抽出するパイプラインである。
既存のデータベースレコードの言語モデルをトレーニングし、構造化されたスパンを生成します。
チェックポインティングとチャンクエンコーディングを用いて,1つのベースライン上の最大32,000トークンのシーケンスに適用する。
論文 参考訳(メタデータ) (2021-05-16T20:46:29Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。