論文の概要: Evaluation of Pose Estimation Systems for Sign Language Translation
- arxiv url: http://arxiv.org/abs/2604.24609v1
- Date: Mon, 27 Apr 2026 15:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.123076
- Title: Evaluation of Pose Estimation Systems for Sign Language Translation
- Title(参考訳): 手話翻訳のための詩推定システムの評価
- Authors: Catherine O'Brien, Gerard Sant, Mathias Müller, Sarah Ebling,
- Abstract要約: 多くの手話翻訳(SLT)システムは、入力の寸法を減らし、可搬性を改善し、部分的にシグナーを匿名化するために、生のビデオの代わりにポーズシーケンスを操作する。
ポーズに基づくSLTのポーズ推定の体系的比較を行い、広く使われているベースライン(MediaPipe Holistic, OpenPose)と新しい全身/高容量モデル(MMPose WholeBody, OpenPifPaf, AlphaPose, SDPose, Sapiens, SMPLest-X)をカバーする。
ポーズ表現のみが異なるRWTH-ENIXPHO-Weather 2014上で制御されたSLTパイプラインをトレーニングすることで、下流への影響を定量化する。
- 参考スコア(独自算出の注目度): 7.389352621478995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sign language translation (SLT) systems operate on pose sequences instead of raw video to reduce input dimensionality, improve portability, and partially anonymize signers. The choice of pose estimator is often treated as an implementation detail, with systems defaulting to widely available tools such as MediaPipe Holistic or OpenPose. We present a systematic comparison of pose estimators for pose-based SLT, covering widely used baselines (MediaPipe Holistic, OpenPose) and newer whole-body/high-capacity models (MMPose WholeBody, OpenPifPaf, AlphaPose, SDPose, Sapiens, SMPLest-X). We quantify downstream impact by training a controlled SLT pipeline on RWTH-PHOENIX-Weather 2014 where only the pose representation varies, evaluating with BLEU and BLEURT. To contextualize translation outcomes, we analyze temporal stability, missing hand keypoints, and robustness to occlusion using higher-resolution videos from the Signsuisse dataset. SDPose and Sapiens achieve the best translation performance (BLEU ~11.5), outperforming the common MediaPipe baseline (BLEU ~10). In occlusion cases, Sapiens is correct in all tested instances (15/15), while OpenPifPaf fails in nearly all (1/15) and also yields the weakest translation scores. Estimators that frequently leave out hand keypoints are associated with lower BLEU/BLEURT. We release code that can be used not only to reproduce our experiments, but also considerably lowers the barrier for other researchers to use alternative pose estimators.
- Abstract(参考訳): 多くの手話翻訳(SLT)システムは、入力の寸法を減らし、可搬性を改善し、部分的にシグナーを匿名化するために、生のビデオの代わりにポーズシーケンスを操作する。
ポーズ推定器の選択は、しばしば実装の詳細として扱われ、MediaPipe HolisticやOpenPoseといった広く利用可能なツールにデフォルトで設定される。
ポーズに基づくSLTのポーズ推定手法を体系的に比較し,広く使用されているベースライン(MediaPipe Holistic, OpenPose)と新しい全身・高容量モデル(MMPose WholeBody, OpenPifPaf, AlphaPose, SDPose, Sapiens, SMPLest-X)について述べる。
制御されたSLTパイプラインをRWTH-PHOENIX-Weather 2014でトレーニングし、ポーズ表現だけを変化させ、BLEUとBLEURTで評価することで、下流への影響を定量化する。
翻訳結果の文脈化のために,Signsuisseデータセットの高解像度ビデオを用いて,時間的安定性,手指キーポイントの欠如,閉塞に対する頑健さを解析した。
SDPoseとSapiensは最高の翻訳性能(BLEU ~11.5)を達成し、共通のMediaPipeベースライン(BLEU ~10)を上回っている。
閉塞の場合、サピエンスは全てのテストケースで正しい(15/15)が、OpenPifPafはほとんど全てのケース(1/15)で失敗し、最も弱い翻訳スコアが得られる。
しばしば手指のキーポイントを出力する推定器は、低いBLEU/BLEURTに関連付けられている。
実験を再現するために使用できるだけでなく、他の研究者が代替のポーズ推定器を使うための障壁をかなり低くするコードをリリースする。
関連論文リスト
- Gloss-Free Sign Language Translation: An Unbiased Evaluation of Progress in the Field [18.404620610035174]
手話翻訳は、視覚的な手話ビデオを自動的に音声言語テキストに変換することを目的としている。
近年は急速に進歩しているが、性能改善の真の源泉はよく不明である。
本稿では,最近のGloss-free SLTモデルについて,統一フレームワークにおける重要なコントリビューションを再実装した総合的研究を行う。
論文 参考訳(メタデータ) (2026-02-18T08:40:31Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - Elastic Weight Consolidation Improves the Robustness of Self-Supervised
Learning Methods under Transfer [4.2141621237414615]
自己教師付き表現学習(SSL)手法は、下流タスクの微調整に有効なラベルなし初期条件を提供する。
我々はベイジアン連続学習のレンズの下でSSLの微調整を再解釈し、Elastic Weight Consolidation (EWC)フレームワークによる正規化を検討する。
初期SSLバックボーンに対する自己正規化は、ウォーターバードの最低サブグループ性能を5%改善し、Celeb-Aを2%向上させることを示した。
論文 参考訳(メタデータ) (2022-10-28T19:00:25Z) - Holistic Sentence Embeddings for Better Out-of-Distribution Detection [12.640837452980332]
Avg-Avg という単純な埋め込み手法を提案し,各中間層からのトークン表現を文埋め込みとして平均化する。
本分析は, 微調整PLMにおける言語知識の保存に有効であり, 背景変化の検出にも有効であることを示す。
論文 参考訳(メタデータ) (2022-10-14T03:22:58Z) - A Case Study on Pros and Cons of Regular Expression Detection and
Dependency Parsing for Negation Extraction from German Medical Documents.
Technical Report [2.2869267883760287]
ドイツ語で書かれた医学文書における情報抽出に関する研究について述べる。
我々は,大量のトリガをベースラインとして,NegEx正規表現アルゴリズムのバージョンを用いる。
同様の結果を得るのに、はるかに小さなトリガーセットが十分であることを示す。
論文 参考訳(メタデータ) (2021-05-20T12:21:09Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。