論文の概要: Pose-Based Sign Language Spotting via an End-to-End Encoder Architecture
- arxiv url: http://arxiv.org/abs/2512.08738v1
- Date: Tue, 09 Dec 2025 15:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.031991
- Title: Pose-Based Sign Language Spotting via an End-to-End Encoder Architecture
- Title(参考訳): エンド・ツー・エンド・エンド・エンコーダアーキテクチャによる詩ベースの手話スポッティング
- Authors: Samuel Ebimobowei Johnny, Blessed Guda, Emmanuel Enejo Aaron, Assane Gueye,
- Abstract要約: 本稿では,手話検索への第一歩として,問合せ手話ビデオの存在や欠如を検出するという課題に対処する。
中間光沢認識やテキストベースのマッチングに依存する従来の手法とは異なり、手話ビデオから抽出したポーズキーポイントを直接操作するエンドツーエンドモデルを提案する。
アーキテクチャでは,エンコーダのみのバックボーンとバイナリ分類ヘッドを用いて,クエリサインがターゲットシーケンス内に現れるかどうかを判定する。
- 参考スコア(独自算出の注目度): 0.4083182125683813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Sign Language Recognition (ASLR) has emerged as a vital field for bridging the gap between deaf and hearing communities. However, the problem of sign-to-sign retrieval or detecting a specific sign within a sequence of continuous signs remains largely unexplored. We define this novel task as Sign Language Spotting. In this paper, we present a first step toward sign language retrieval by addressing the challenge of detecting the presence or absence of a query sign video within a sentence-level gloss or sign video. Unlike conventional approaches that rely on intermediate gloss recognition or text-based matching, we propose an end-to-end model that directly operates on pose keypoints extracted from sign videos. Our architecture employs an encoder-only backbone with a binary classification head to determine whether the query sign appears within the target sequence. By focusing on pose representations instead of raw RGB frames, our method significantly reduces computational cost and mitigates visual noise. We evaluate our approach on the Word Presence Prediction dataset from the WSLP 2025 shared task, achieving 61.88\% accuracy and 60.00\% F1-score. These results demonstrate the effectiveness of our pose-based framework for Sign Language Spotting, establishing a strong foundation for future research in automatic sign language retrieval and verification. Code is available at https://github.com/EbimoJohnny/Pose-Based-Sign-Language-Spotting
- Abstract(参考訳): 聴覚と聴覚のギャップを埋めるための重要な分野として,ASLR(Automatic Sign Language Recognition)が出現している。
しかし, 連続する符号列内の特定の符号の探索や検出の問題は, ほとんど未探索のままである。
我々はこの新しいタスクを手話スポッティングと定義する。
本稿では,文レベルのグロスや手話ビデオにおける問合せ手話ビデオの存在や欠如を検出するという課題に対処し,手話検索に向けた第一歩を示す。
中間光沢認識やテキストベースのマッチングに依存する従来の手法とは異なり、手話ビデオから抽出したポーズキーポイントを直接操作するエンドツーエンドモデルを提案する。
アーキテクチャでは,エンコーダのみのバックボーンとバイナリ分類ヘッドを用いて,クエリサインがターゲットシーケンス内に現れるかどうかを判定する。
生のRGBフレームの代わりにポーズ表現に焦点を当てることで,計算コストを大幅に削減し,視覚ノイズを軽減する。
我々は、WSLP 2025共有タスクからWord Presence Predictionデータセットに対するアプローチを評価し、61.88\%の精度と60.00\%のF1スコアを達成した。
これらの結果は,手話スポッティングのためのポーズベースフレームワークの有効性を実証し,手話の自動検索と検証のための強力な基礎を築いた。
コードはhttps://github.com/EbimoJohnny/Pose-Based-Sign-Language-Spottingで入手できる。
関連論文リスト
- SignX: The Foundation Model for Sign Recognition [28.651340554377906]
本稿では,手話認識のための基礎モデルフレームワークSignXを提案する。
これは簡潔だが強力なフレームワークであり、複数の人間の活動認識シナリオに適用できる。
実験結果から,SignXは手話ビデオからサインを認識でき,予測された光沢表現を従来よりも高精度に生成できることがわかった。
論文 参考訳(メタデータ) (2025-04-22T23:23:39Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。