論文の概要: Bootstrapping Sign Language Annotations with Sign Language Models
- arxiv url: http://arxiv.org/abs/2604.07606v1
- Date: Wed, 08 Apr 2026 21:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.568817
- Title: Bootstrapping Sign Language Annotations with Sign Language Models
- Title(参考訳): 手話モデルを用いた手話アノテーションのブートストラップ
- Authors: Colin Lea, Vasileios Baltatzis, Connor Gillis, Raja Kushalnagar, Lorna Quandt, Leah Findlater,
- Abstract要約: AI駆動手話解釈は、高品質な注釈付きデータの欠如によって制限される。
新しいデータセットには、プロのインタプリタと100時間のデータが含まれているが、部分的に注釈付けされ、未使用のままである。
我々は、署名付きビデオと英語を入力として取り込んだ擬似アノテーションパイプラインを開発し、可能性のあるアノテーションのランキングを出力する。
- 参考スコア(独自算出の注目度): 8.691348788683266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI-driven sign language interpretation is limited by a lack of high-quality annotated data. New datasets including ASL STEM Wiki and FLEURS-ASL contain professional interpreters and 100s of hours of data but remain only partially annotated and thus underutilized, in part due to the prohibitive costs of annotating at this scale. In this work, we develop a pseudo-annotation pipeline that takes signed video and English as input and outputs a ranked set of likely annotations, including time intervals, for glosses, fingerspelled words, and sign classifiers. Our pipeline uses sparse predictions from our fingerspelling recognizer and isolated sign recognizer (ISR), along with a K-Shot LLM approach, to estimate these annotations. In service of this pipeline, we establish simple yet effective baseline fingerspelling and ISR models, achieving state-of-the-art on FSBoard (6.7% CER) and on ASL Citizen datasets (74% top-1 accuracy). To validate and provide a gold-standard benchmark, a professional interpreter annotated nearly 500 videos from ASL STEM Wiki with sequence-level gloss labels containing glosses, classifiers, and fingerspelling signs. These human annotations and over 300 hours of pseudo-annotations are being released in supplemental material.
- Abstract(参考訳): AI駆動手話解釈は、高品質な注釈付きデータの欠如によって制限される。
ASL STEM Wiki や FLEURS-ASL などの新しいデータセットには、プロのインタプリタと100時間のデータが含まれているが、この規模のアノテートが禁止されるコストのために、部分的にアノテートされ、未使用のままである。
本研究では,署名付きビデオと英語を入力として用いた擬似アノテーションパイプラインを開発し,時間間隔,グルース,指先語,手話分類器などの可能性のあるアノテーション群を出力する。
我々のパイプラインでは,指先認識器と孤立手形認識器(ISR)のスパース予測とK-Shot LLMアプローチを用いて,これらのアノテーションを推定する。
このパイプラインでは,FSBoard (6.7% CER) と ASL Citizen データセット (74% Top-1 精度) で最先端を実現するため,単純で効果的なベースラインフィンガースペルと ISR モデルを構築している。
金標準ベンチマークを検証及び提供するために、ASL STEM Wikiから500本近いビデオを注釈付けしたプロの通訳に、グルース、分類器、フィンガーペリングサインを含むシーケンスレベルのグロスラベルを付与する。
これらの人間のアノテーションと300時間以上の擬似アノテーションが補足材料としてリリースされている。
関連論文リスト
- Recognising BSL Fingerspelling in Continuous Signing Sequences [48.21890372724633]
FingerspellingはBritish Sign Language(BSL)の重要なコンポーネントである
既存のBSLフィンガースペルデータセットは、規模が小さいか、時間的にも文字的にも不正確である。
我々は,反復的アノテーションフレームワークを用いて構築した大規模BSLフィンガースペルデータセットFS23Kを紹介する。
論文 参考訳(メタデータ) (2026-03-19T23:29:31Z) - Seeing, Signing, and Saying: A Vision-Language Model-Assisted Pipeline for Sign Language Data Acquisition and Curation from Social Media [14.920401718793643]
視覚言語モデル(VLM)は評価器やリアルタイムアシスタントとして強力な能力を示している。
データ品質を保ちながら手作業への依存を減らすためにVLMを利用した最初の自動アノテーションとフィルタリングフレームワークを導入する。
提案手法は,8つの手話のTikTokビデオと,ドイツ語手話におけるすでに編集済みのYouTube-SL-25データセットに適用した。
論文 参考訳(メタデータ) (2025-10-29T11:29:56Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - The Sem-Lex Benchmark: Modeling ASL Signs and Their Phonemes [6.0179345110920455]
本稿では,ASL(American Sign Language)モデリングのための新しいリソースであるSem-Lex Benchmarkを紹介する。
Benchmarkは、現在最大規模で、聴覚障害のASL署名者による84万本以上の単独のサイン制作のビデオで構成されており、インフォームド・コンセントが与えられ、補償を受けた。
ASL-LEXにおける言語情報を活用する一連の実験を行い、Sem-Lex Benchmark(ISR)の実用性と公正性を評価した。
論文 参考訳(メタデータ) (2023-09-30T00:25:43Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。