Fugu-MT 論文翻訳(概要): OpenFS: Multi-Hand-Capable Fingerspelling Recognition with Implicit Signing-Hand Detection and Frame-Wise Letter-Conditioned Synthesis

論文の概要: OpenFS: Multi-Hand-Capable Fingerspelling Recognition with Implicit Signing-Hand Detection and Frame-Wise Letter-Conditioned Synthesis

arxiv url: http://arxiv.org/abs/2602.22949v1
Date: Thu, 26 Feb 2026 12:41:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.685515
Title: OpenFS: Multi-Hand-Capable Fingerspelling Recognition with Implicit Signing-Hand Detection and Frame-Wise Letter-Conditioned Synthesis
Title（参考訳）: OpenFS: 暗証署名検出とフレームワイズ文字合成による多機能フィンガースペル認識
Authors: Junuk Cha, Jihyeon Kim, Han-Mu Park,
Abstract要約: フィンガースペル認識は聴覚と聴覚のコミュニケーションギャップを埋める上で重要な役割を担っている。我々は,指先認識と合成のためのオープンソースアプローチであるOpenFSを開発した。
参考スコア（独自算出の注目度）: 7.940141427569929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fingerspelling is a component of sign languages in which words are spelled out letter by letter using specific hand poses. Automatic fingerspelling recognition plays a crucial role in bridging the communication gap between Deaf and hearing communities, yet it remains challenging due to the signing-hand ambiguity issue, the lack of appropriate training losses, and the out-of-vocabulary (OOV) problem. Prior fingerspelling recognition methods rely on explicit signing-hand detection, which often leads to recognition failures, and on a connectionist temporal classification (CTC) loss, which exhibits the peaky behavior problem. To address these issues, we develop OpenFS, an open-source approach for fingerspelling recognition and synthesis. We propose a multi-hand-capable fingerspelling recognizer that supports both single- and multi-hand inputs and performs implicit signing-hand detection by incorporating a dual-level positional encoding and a signing-hand focus (SF) loss. The SF loss encourages cross-attention to focus on the signing hand, enabling implicit signing-hand detection during recognition. Furthermore, without relying on the CTC loss, we introduce a monotonic alignment (MA) loss that enforces the output letter sequence to follow the temporal order of the input pose sequence through cross-attention regularization. In addition, we propose a frame-wise letter-conditioned generator that synthesizes realistic fingerspelling pose sequences for OOV words. This generator enables the construction of a new synthetic benchmark, called FSNeo. Through comprehensive experiments, we demonstrate that our approach achieves state-of-the-art performance in recognition and validate the effectiveness of the proposed recognizer and generator. Codes and data are available in: https://github.com/JunukCha/OpenFS.
Abstract（参考訳）: フィンガースペル(英: Fingerspelling)は、手振りを使って文字で単語を綴り出す手話の構成要素である。自動指打ち認識は, 難聴コミュニティと聴覚コミュニティのコミュニケーションギャップを埋める上で重要な役割を担っているが, サインハンドあいまいさの問題, 適切な訓練損失の欠如, 語彙外問題(OOV)の問題などにより, いまだに困難である。従来の指先認識法は、しばしば認識障害につながる明示的な署名手検出と、ピーク動作問題を示すコネクショニスト時間分類(CTC)の損失に頼っている。これらの課題に対処するため,我々は,指先認識と合成のためのオープンソースアプローチであるOpenFSを開発した。シングルハンド入力とマルチハンド入力の両方をサポートし、デュアルレベルの位置符号化と署名ハンドフォーカス(SF)ロスを組み込んだ暗黙的な署名ハンド検出を行うマルチハンド対応指スペル認識器を提案する。 SF損失は、クロスアテンションが署名ハンドに集中することを奨励し、認識中の暗黙の署名ハンド検出を可能にする。さらに,CTC損失に依存しない単調アライメント(MA)損失を導入し,入力ポーズシーケンスの時間順序に従うように出力文字シーケンスを強制する。さらに,本研究では,OoV単語のリアルな指ペリングポーズシーケンスを合成するフレームワイド文字条件付きジェネレータを提案する。このジェネレータは、FSNeoと呼ばれる新しい合成ベンチマークの構築を可能にする。総合的な実験を通して,本手法が認識性能の最先端化を実現し,提案手法の有効性を検証した。コードとデータは、https://github.com/JunukCha/OpenFS.comで入手できる。

関連論文リスト

Enhancing IMU-Based Online Handwriting Recognition via Contrastive Learning with Zero Inference Overhead [4.519836503888727]
推論コストを増大させることなく特徴表現と認識精度を向上させるためのトレーニングフレームワークを提案する。 ECHWRは、トレーニングフェーズ中にセンサー信号とセマンティックテキストの埋め込みを整列する一時的な補助ブランチを使用する。 OnHW-Words500データセットの評価によると、ECHWRは最先端のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2026-02-04T13:44:54Z)
Pose-Based Sign Language Spotting via an End-to-End Encoder Architecture [0.4083182125683813]
本稿では,手話検索への第一歩として,問合せ手話ビデオの存在や欠如を検出するという課題に対処する。中間光沢認識やテキストベースのマッチングに依存する従来の手法とは異なり、手話ビデオから抽出したポーズキーポイントを直接操作するエンドツーエンドモデルを提案する。アーキテクチャでは,エンコーダのみのバックボーンとバイナリ分類ヘッドを用いて,クエリサインがターゲットシーケンス内に現れるかどうかを判定する。
論文参考訳（メタデータ） (2025-12-09T15:49:23Z)
AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition [0.0]
聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。ポーズ列を直接自然言語テキストに変換する自動回帰デコーダのみの変換器であるAutoSignを提案する。マルチステージパイプラインを削除することで、AutoSignはIsharah-1000データセットを大幅に改善した。
論文参考訳（メタデータ） (2025-07-26T07:28:33Z)
Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。 SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文参考訳（メタデータ） (2024-03-26T09:25:57Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文参考訳（メタデータ） (2023-10-08T07:42:41Z)
Weakly-supervised Fingerspelling Recognition in British Sign Language Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-11-16T15:02:36Z)
A Fine-Grained Visual Attention Approach for Fingerspelling Recognition in the Wild [17.8181080354116]
指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。野生データセットのシーケンシャル・トゥ・シークエンス予測タスクにTransformerモデルを用いた微細な視覚的注意メカニズムを提案する。
論文参考訳（メタデータ） (2021-05-17T06:15:35Z)
Fingerspelling Detection in American Sign Language [32.79935314131377]
未熟な手話ビデオで指のスペル検出のタスクを検討します。これは、現実世界の指先認識システムを構築するための重要なステップである。そこで本研究では,下流指先認識課題に対する検出の影響を反映したベンチマークと評価指標を提案する。
論文参考訳（メタデータ） (2021-04-03T02:11:09Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。