論文の概要: HandReader: Advanced Techniques for Efficient Fingerspelling Recognition
- arxiv url: http://arxiv.org/abs/2505.10267v1
- Date: Thu, 15 May 2025 13:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.326608
- Title: HandReader: Advanced Techniques for Efficient Fingerspelling Recognition
- Title(参考訳): HandReader: 効率的なフィンガースペル認識のための高度な技術
- Authors: Pavel Korotaev, Petr Surovtsev, Alexander Kapitanov, Karina Kvanchiani, Aleksandr Nagaev,
- Abstract要約: 本稿では,指先認識タスクに対処するために設計された3つのアーキテクチャ群であるHandReaderを紹介する。
HandReader$_RGB$は、様々な長さのビデオからRGBの機能を処理するために、Adaptive Shift-Temporal Module (TSAM) という小説を使っている。
HandReader$_KP$は、キーポイントをテンソルとして操作するTPE(Temporal Pose)上に構築されている。
各HandReaderモデルは、それぞれ異なるアドバンテージを持ち、ChicagoFSWildとChicagoFSWild+データセットの最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 75.38606213726906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fingerspelling is a significant component of Sign Language (SL), allowing the interpretation of proper names, characterized by fast hand movements during signing. Although previous works on fingerspelling recognition have focused on processing the temporal dimension of videos, there remains room for improving the accuracy of these approaches. This paper introduces HandReader, a group of three architectures designed to address the fingerspelling recognition task. HandReader$_{RGB}$ employs the novel Temporal Shift-Adaptive Module (TSAM) to process RGB features from videos of varying lengths while preserving important sequential information. HandReader$_{KP}$ is built on the proposed Temporal Pose Encoder (TPE) operated on keypoints as tensors. Such keypoints composition in a batch allows the encoder to pass them through 2D and 3D convolution layers, utilizing temporal and spatial information and accumulating keypoints coordinates. We also introduce HandReader_RGB+KP - architecture with a joint encoder to benefit from RGB and keypoint modalities. Each HandReader model possesses distinct advantages and achieves state-of-the-art results on the ChicagoFSWild and ChicagoFSWild+ datasets. Moreover, the models demonstrate high performance on the first open dataset for Russian fingerspelling, Znaki, presented in this paper. The Znaki dataset and HandReader pre-trained models are publicly available.
- Abstract(参考訳): フィンガースペルは手話(SL)の重要な構成要素であり、署名中の手の動きを特徴とする固有名の解釈を可能にする。
これまでは、ビデオの時間次元の処理に焦点をあててきたが、これらの手法の精度を向上させる余地は残っていない。
本稿では,指先認識タスクに対処するために設計された3つのアーキテクチャ群であるHandReaderを紹介する。
HandReader$_{RGB}$は、TSAM(Temporal Shift-Adaptive Module)を使用して、重要なシーケンシャル情報を保持しながら、様々な長さのビデオからRGB機能を処理する。
HandReader$_{KP}$は、キーポイントをテンソルとして操作するTPE(Temporal Pose Encoder)上に構築されている。
このようなキーポイントの構成により、エンコーダは2次元および3次元の畳み込み層を通過させ、時間的および空間的な情報を利用してキーポイント座標を蓄積することができる。
また、RGBとキーポイントのモダリティの恩恵を受けるために、共同エンコーダを備えたHandReader_RGB+KPアーキテクチャを導入します。
各HandReaderモデルは、それぞれ異なるアドバンテージを持ち、ChicagoFSWildとChicagoFSWild+データセットの最先端の結果を達成する。
さらに,本論文では,ロシア式指打法の最初のオープンデータセットであるZnakiについて,高い性能を示す。
ZnakiデータセットとHandReader事前トレーニングされたモデルが公開されている。
関連論文リスト
- HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。
伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。
本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文 参考訳(メタデータ) (2024-12-25T20:36:29Z) - Reconstructing Hands in 3D with Transformers [64.15390309553892]
単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリに対する我々のアプローチであるHaMeRは、完全にトランスフォーマーベースのアーキテクチャを踏襲し、以前の作業に比べて精度と堅牢性を大幅に向上させながら、ハンドを解析できる。
論文 参考訳(メタデータ) (2023-12-08T18:59:07Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - On-device Real-time Hand Gesture Recognition [1.4658400971135652]
本稿では,1台のRGBカメラから予め定義された静的ジェスチャーを検知するデバイス上でのリアルタイム手ジェスチャー認識(HGR)システムを提案する。
ハンドスケルトントラッカーの基礎としてMediaPipe Handsを使用し、キーポイント精度を改善し、世界距離空間における3次元キーポイントの推定を追加する。
論文 参考訳(メタデータ) (2021-10-29T18:33:25Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - FastHand: Fast Hand Pose Estimation From A Monocular Camera [12.790733588554588]
ハンドポーズ推定のための高速・高精度なフレームワーク「FastHand」を提案します。
FastHandは、NVIDIA Jetson TX2グラフィックス処理ユニットで毎秒25フレームの速度に達しながら、高い精度のスコアを提供する。
論文 参考訳(メタデータ) (2021-02-14T04:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。