論文の概要: Real-Time Sign Language Detection using Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2008.04637v2
- Date: Sun, 13 Sep 2020 11:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:36:00.998796
- Title: Real-Time Sign Language Detection using Human Pose Estimation
- Title(参考訳): 人文推定を用いたリアルタイム手話検出
- Authors: Amit Moryossef, Ioannis Tsochantaridis, Roee Aharoni, Sarah Ebling,
and Srini Narayanan
- Abstract要約: 本稿では,ビデオ会議におけるこのようなケースの必要性を認識するために,軽量なリアルタイム手話検出モデルを提案する。
人間のポーズ推定に基づく光学的流れの特徴を抽出し、線形分類器を用いてDGS Corpusで評価した80%の精度でこれらの特徴が有意であることを示す。
入力に直接リカレントモデルを適用すると、最大91%の精度が向上し、4ms以下で動作します。
- 参考スコア(独自算出の注目度): 12.23825632250387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a lightweight real-time sign language detection model, as we
identify the need for such a case in videoconferencing. We extract optical flow
features based on human pose estimation and, using a linear classifier, show
these features are meaningful with an accuracy of 80%, evaluated on the DGS
Corpus. Using a recurrent model directly on the input, we see improvements of
up to 91% accuracy, while still working under 4ms. We describe a demo
application to sign language detection in the browser in order to demonstrate
its usage possibility in videoconferencing applications.
- Abstract(参考訳): 我々は,ビデオ会議におけるこのようなケースの必要性を明らかにするため,軽量なリアルタイム手話検出モデルを提案する。
人間のポーズ推定に基づく光学的流れの特徴を抽出し、線形分類器を用いてDGS Corpusで評価した80%の精度でこれらの特徴が有意であることを示す。
入力に直接リカレントモデルを使用することで、最大91%の精度が向上し、しかも4ms以下で動作します。
ビデオ会議アプリケーションでの使用可能性を示すために,ブラウザ上での言語検出にサインするデモアプリケーションを記述した。
関連論文リスト
- Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Language-Enhanced Latent Representations for Out-of-Distribution Detection in Autonomous Driving [1.3499500088995464]
マルチモーダル入力は、人間の言語を潜在表現として捉える可能性を提供する。
本稿では,マルチモーダルモデルCLIPで符号化された画像とテキストのコサイン類似性を新しい表現として利用する。
現実的な駆動データを用いた実験により,言語に基づく潜在表現は従来の視覚エンコーダの表現よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-02T19:27:28Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - Evaluating Automatic Speech Recognition in an Incremental Setting [0.7734726150561086]
単語誤り率,レイテンシ,すでに認識されている単語に対する英語テストデータへの更新回数などの指標を用いて,6つの音声認識器を体系的に評価した。
一般的に、ローカルの認識器はより高速で、クラウドベースの認識器よりも少ない更新を必要とする。
論文 参考訳(メタデータ) (2023-02-23T14:22:40Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - Device Directedness with Contextual Cues for Spoken Dialog Systems [15.96415881820669]
本研究では,バージイン検証を,音声のみの情報を用いてユーザの音声対話を真偽のバージインに分類する教師付き学習タスクとして定義する。
下流分類タスクに自己教師付き表現学習モデルから低レベル音声表現を用いる。
プレトレーニング中に暗黙的に学習されたドメイン固有言語情報を改善するために,語彙情報を音声表現に直接注入する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:49:11Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。