Fugu-MT 論文翻訳(概要): Hands-On: Segmenting Individual Signs from Continuous Sequences

論文の概要: Hands-On: Segmenting Individual Signs from Continuous Sequences

arxiv url: http://arxiv.org/abs/2504.08593v2
Date: Mon, 14 Apr 2025 08:07:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 12:07:11.012403
Title: Hands-On: Segmenting Individual Signs from Continuous Sequences
Title（参考訳）: ハンズオン:連続したシーケンスから個々のサインを分離する
Authors: Low Jian He, Harry Walsh, Ozge Mercanoglu Sincan, Richard Bowden,
Abstract要約: 本稿では,署名とフレームセグメンテーションの時間ダイナミクスをモデル化したトランスフォーマーアーキテクチャを提案する。我々のモデルはDGS Corpusの最先端結果を達成する一方、我々の機能はBSLCorpusの以前のベンチマークを上回る。
参考スコア（独自算出の注目度）: 28.01996053847279
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This work tackles the challenge of continuous sign language segmentation, a key task with huge implications for sign language translation and data annotation. We propose a transformer-based architecture that models the temporal dynamics of signing and frames segmentation as a sequence labeling problem using the Begin-In-Out (BIO) tagging scheme. Our method leverages the HaMeR hand features, and is complemented with 3D Angles. Extensive experiments show that our model achieves state-of-the-art results on the DGS Corpus, while our features surpass prior benchmarks on BSLCorpus.
Abstract（参考訳）: この作業は、手話翻訳とデータアノテーションに大きな意味を持つ重要なタスクである、連続手話セグメンテーション(continuous sign language segmentation)の課題に対処する。本稿では,Begin-In-Out (BIO) タグ付け方式を用いたシーケンスラベリング問題として,署名とフレームセグメンテーションの時間ダイナミクスをモデル化したトランスフォーマーベースアーキテクチャを提案する。提案手法は,3次元アングルを補完するHaMeRハンドの特徴を利用する。大規模な実験により,我々のモデルはDGS Corpusの最先端結果を達成する一方,我々の機能はBSLCorpusの以前のベンチマークを上回ることがわかった。

関連論文リスト

StgcDiff: Spatial-Temporal Graph Condition Diffusion for Sign Language Transition Generation [33.695308849489784]
離散符号間のスムーズな遷移を生成するグラフベースの条件拡散フレームワークStgcDiffを提案する。具体的には、エンコーダ・デコーダアーキテクチャをトレーニングし、空間的時間的骨格の構造認識表現を学習する。我々は,その空間的特徴を効果的にモデル化する,Sign-GCNモジュールをフレームワークのキーコンポーネントとして設計する。
論文参考訳（メタデータ） (2025-06-16T07:09:51Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。 How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文参考訳（メタデータ） (2024-07-04T13:53:50Z)
Sign Stitching: A Novel Approach to Sign Language Production [35.35777909051466]
本稿では,辞書の例を用いて,表現力のある手話列を生成することを提案する。サインを効果的に縫合するための7段階のアプローチを提案する。我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナにマップする。
論文参考訳（メタデータ） (2024-05-13T11:44:57Z)
Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文参考訳（メタデータ） (2023-10-21T10:09:34Z)
SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-08T17:16:38Z)
BEST: BERT Pre-Training for Sign Language Recognition with Coupling Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文参考訳（メタデータ） (2023-02-10T06:23:44Z)
Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文参考訳（メタデータ） (2021-03-11T22:11:17Z)
TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文参考訳（メタデータ） (2020-10-12T05:58:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。