論文の概要: Hands-On: Segmenting Individual Signs from Continuous Sequences
- arxiv url: http://arxiv.org/abs/2504.08593v2
- Date: Mon, 14 Apr 2025 08:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 13:21:57.126767
- Title: Hands-On: Segmenting Individual Signs from Continuous Sequences
- Title(参考訳): ハンズオン:連続したシーケンスから個々のサインを分離する
- Authors: Low Jian He, Harry Walsh, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: 本稿では,署名とフレームセグメンテーションの時間ダイナミクスをモデル化したトランスフォーマーアーキテクチャを提案する。
我々のモデルはDGS Corpusの最先端結果を達成する一方、我々の機能はBSLCorpusの以前のベンチマークを上回る。
- 参考スコア(独自算出の注目度): 28.01996053847279
- License:
- Abstract: This work tackles the challenge of continuous sign language segmentation, a key task with huge implications for sign language translation and data annotation. We propose a transformer-based architecture that models the temporal dynamics of signing and frames segmentation as a sequence labeling problem using the Begin-In-Out (BIO) tagging scheme. Our method leverages the HaMeR hand features, and is complemented with 3D Angles. Extensive experiments show that our model achieves state-of-the-art results on the DGS Corpus, while our features surpass prior benchmarks on BSLCorpus.
- Abstract(参考訳): この作業は、手話翻訳とデータアノテーションに大きな意味を持つ重要なタスクである、連続手話セグメンテーション(continuous sign language segmentation)の課題に対処する。
本稿では,Begin-In-Out (BIO) タグ付け方式を用いたシーケンスラベリング問題として,署名とフレームセグメンテーションの時間ダイナミクスをモデル化したトランスフォーマーベースアーキテクチャを提案する。
提案手法は,3次元アングルを補完するHaMeRハンドの特徴を利用する。
大規模な実験により,我々のモデルはDGS Corpusの最先端結果を達成する一方,我々の機能はBSLCorpusの以前のベンチマークを上回ることがわかった。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Sign Stitching: A Novel Approach to Sign Language Production [35.35777909051466]
本稿では,辞書の例を用いて,表現力のある手話列を生成することを提案する。
サインを効果的に縫合するための7段階のアプローチを提案する。
我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナにマップする。
論文 参考訳(メタデータ) (2024-05-13T11:44:57Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z) - BEST: BERT Pre-Training for Sign Language Recognition with Coupling
Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。
手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。
劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文 参考訳(メタデータ) (2023-02-10T06:23:44Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。