論文の概要: Keypoint based Sign Language Translation without Glosses
- arxiv url: http://arxiv.org/abs/2204.10511v1
- Date: Fri, 22 Apr 2022 05:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 23:37:53.193333
- Title: Keypoint based Sign Language Translation without Glosses
- Title(参考訳): 光沢のないキーポイントに基づく手話翻訳
- Authors: Youngmin Kim, Minji Kwak, Dain Lee, Yeongeun Kim, Hyeongboo Baek
- Abstract要約: 署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
- 参考スコア(独自算出の注目度): 7.240731862549344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Translation (SLT) is a task that has not been studied
relatively much compared to the study of Sign Language Recognition (SLR).
However, the SLR is a study that recognizes the unique grammar of sign
language, which is different from the spoken language and has a problem that
non-disabled people cannot easily interpret. So, we're going to solve the
problem of translating directly spoken language in sign language video. To this
end, we propose a new keypoint normalization method for performing translation
based on the skeleton point of the signer and robustly normalizing these points
in sign language translation. It contributed to performance improvement by a
customized normalization method depending on the body parts. In addition, we
propose a stochastic frame selection method that enables frame augmentation and
sampling at the same time. Finally, it is translated into the spoken language
through an Attention-based translation model. Our method can be applied to
various datasets in a way that can be applied to datasets without glosses. In
addition, quantitative experimental evaluation proved the excellence of our
method.
- Abstract(参考訳): 手話の翻訳 (slt) は手話認識 (slr) の研究と比較して、比較的研究されていないタスクである。
しかし、SLRは手話の独特の文法を認識する研究であり、これは話し言葉とは異なるものであり、非障害者が容易に解釈できないという問題がある。
ですから私たちは,手話ビデオで直接音声言語を翻訳する,という問題を解決するつもりです。
そこで本研究では,手話翻訳において,手話のスケルトン点に基づく翻訳を行い,これらの点をロバストに正規化するための新しいキーポイント正規化手法を提案する。
身体部位に応じてカスタマイズした正規化方式による性能改善に寄与した。
また,フレーム拡張とサンプリングを同時に行う確率的フレーム選択手法を提案する。
最後に、注意に基づく翻訳モデルを用いて音声言語に翻訳する。
本手法は,光沢のないデータセットに適用可能な方法で,様々なデータセットに適用することができる。
また, 定量的評価により, 評価精度が向上した。
関連論文リスト
- Diverse Sign Language Translation [27.457810402402387]
本稿では,手話ビデオの多種多様かつ正確な翻訳を実現するために,DivSLT(Diverse Sign Language Translation)タスクを導入する。
我々は大規模言語モデル(LLM)を用いて、広く使われているCSL-DailyとPHOENIX14T SLTデータセットの複数の参照を生成する。
具体的には、DivSLTモデルが多様な翻訳を実現するためのマルチ参照トレーニング戦略について検討する。
論文 参考訳(メタデータ) (2024-10-25T14:28:20Z) - Reconsidering Sentence-Level Sign Language Translation [2.099922236065961]
サンプル中の33%の文に対して,流用なDeafシグナ・アノテータは談話レベルの文脈から,クリップのキー部分のみを理解できた。
これらの結果は、機械学習を新しいドメインに適用する際の理解と健全性検査の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-16T19:19:54Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Building Korean Sign Language Augmentation (KoSLA) Corpus with Data
Augmentation Technique [0.0]
我々は手話翻訳のためのコーパスの効率的なフレームワークを提案する。
手話の言語的特徴を考慮することで,提案するフレームワークは,マルチモーダル手話拡張コーパスを構築するための最初の,ユニークな試みである。
論文 参考訳(メタデータ) (2022-07-12T02:12:36Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。