論文の概要: Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages
- arxiv url: http://arxiv.org/abs/2403.10367v2
- Date: Mon, 25 Mar 2024 18:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 21:24:38.000866
- Title: Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages
- Title(参考訳): 手話における非手話マーカーの言語学的解析のためのメディアパイプホロスティックテスト
- Authors: Anna Kuznetsova, Vadim Kimmelman,
- Abstract要約: 我々はMediaPipe Holistic(MPH)と古いソリューション(OpenFace, OF)を比較する。
MPHは眼球運動の言語学的解析には不十分である。
我々は、これらの制限を克服するために追加の修正モデルをトレーニングする以前の提案を再検討する。
- 参考スコア(独自算出の注目度): 0.6691151987390147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in Deep Learning have made possible reliable landmark tracking of human bodies and faces that can be used for a variety of tasks. We test a recent Computer Vision solution, MediaPipe Holistic (MPH), to find out if its tracking of the facial features is reliable enough for a linguistic analysis of data from sign languages, and compare it to an older solution (OpenFace, OF). We use an existing data set of sentences in Kazakh-Russian Sign Language and a newly created small data set of videos with head tilts and eyebrow movements. We find that MPH does not perform well enough for linguistic analysis of eyebrow movement - but in a different way from OF, which is also performing poorly without correction. We reiterate a previous proposal to train additional correction models to overcome these limitations.
- Abstract(参考訳): Deep Learningの進歩は、さまざまなタスクに使用できる人体と顔の信頼できるランドマーク追跡を可能にした。
最近のコンピュータビジョンソリューションであるMediaPipe Holistic (MPH) をテストし、顔の特徴の追跡が手話からのデータの言語学的分析に十分信頼できるかどうかを確認し、それを古いソリューション(OpenFace, OF)と比較する。
我々は、カザフ語とロシア語の手話における既存の文のデータセットと、頭傾きと眼球運動を備えたビデオの小さなデータセットを使用する。
眼球運動の言語学的解析にはMPHが十分ではないことが判明した。
我々は、これらの制限を克服するために追加の修正モデルをトレーニングする以前の提案を再検討する。
関連論文リスト
- Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文 参考訳(メタデータ) (2022-04-22T05:37:56Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Fine-grained Language Identification with Multilingual CapsNet Model [0.0]
多言語コンテンツの生成と消費の爆発があります。
リアルタイムおよびきめ細かいコンテンツ分析サービスの必要性が高まっている。
音声言語検出の現在の技術は、これらの前線の1つに欠けている可能性がある。
論文 参考訳(メタデータ) (2020-07-12T20:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。