論文の概要: Sign Language Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2409.08780v1
- Date: Fri, 13 Sep 2024 12:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:39:02.419838
- Title: Sign Language Sense Disambiguation
- Title(参考訳): 手話センスの曖昧さ
- Authors: Jana Grimm, Miriam Winkler, Oliver Kraus, Tanalp Agustoslu,
- Abstract要約: 本研究は、ドイツ語手話の手話翻訳を強化する手法について、特に同義語に着目して検討する。
本研究では, トランスフォーマーモデルを用いた様々なボディパーツ表現の訓練により, ボディーパーツに焦点を移すことにより, 改善にアプローチする。
その結果、小さなデータセット設定では口にフォーカスすることでパフォーマンスが向上し、手にフォーカスを移すことで、より大きなデータセット設定ではより良い結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This project explores methods to enhance sign language translation of German sign language, specifically focusing on disambiguation of homonyms. Sign language is ambiguous and understudied which is the basis for our experiments. We approach the improvement by training transformer-based models on various bodypart representations to shift the focus on said bodypart. To determine the impact of, e.g., the hand or mouth representations, we experiment with different combinations. The results show that focusing on the mouth increases the performance in small dataset settings while shifting the focus on the hands retrieves better results in larger dataset settings. Our results contribute to better accessibility for non-hearing persons by improving the systems powering digital assistants, enabling a more accurate interaction. The code for this project can be found on GitHub.
- Abstract(参考訳): 本研究は、ドイツ語手話の手話翻訳を強化する手法について検討し、特に同義語の曖昧さに着目したものである。
手話はあいまいで、我々の実験の基礎となっている。
本研究では, トランスフォーマーモデルを用いた様々なボディパーツ表現の訓練により, ボディーパーツに焦点を移すことにより, 改善にアプローチする。
手や口の表現が与える影響を判断するために,我々は異なる組み合わせを用いて実験を行った。
その結果、小さなデータセット設定では、口に焦点を合わせることでパフォーマンスが向上し、手に焦点を移すことで、より大きなデータセット設定ではより良い結果が得られることがわかった。
本研究は,デジタルアシスタントを駆動するシステムを改善し,より正確なインタラクションを実現することにより,非聴取者のアクセシビリティの向上に寄与する。
プロジェクトのコードはGitHubにある。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition [0.0]
本研究の目的は,イラン手話語をトランスフォーマーなどの最新のディープラーニングツールの助けを借りて認識することである。
使用されるデータセットには、大学などの学術環境で頻繁に使用されるイラン手話101語が含まれている。
論文 参考訳(メタデータ) (2024-06-27T06:54:25Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Building Korean Sign Language Augmentation (KoSLA) Corpus with Data
Augmentation Technique [0.0]
我々は手話翻訳のためのコーパスの効率的なフレームワークを提案する。
手話の言語的特徴を考慮することで,提案するフレームワークは,マルチモーダル手話拡張コーパスを構築するための最初の,ユニークな試みである。
論文 参考訳(メタデータ) (2022-07-12T02:12:36Z) - Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文 参考訳(メタデータ) (2022-04-22T05:37:56Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Score-level Multi Cue Fusion for Sign Language Recognition [2.064612766965483]
我々は手話認識のためのキューモデルを訓練するためのより簡単なアプローチを提案する。
支配的な手,手,顔,上半身領域に特化した3次元畳み込みニューラルネットワーク(CNN)モデルの性能を比較した。
実験の結果,混合畳み込みモデルの有効性が示された。
論文 参考訳(メタデータ) (2020-09-29T16:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。