論文の概要: Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors
- arxiv url: http://arxiv.org/abs/2405.03545v2
- Date: Sat, 11 May 2024 11:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 20:52:15.536443
- Title: Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors
- Title(参考訳): メディアパイプホロスティックフルボディポーズ推定における手領域検出の最適化による精度向上と下流誤差回避
- Authors: Amit Moryossef,
- Abstract要約: 本稿では,MediaPipe Holisticの利害関係推定領域を強化するためのデータ駆動型手法を提案する。
提案手法は, 従来手法よりも高いインターセクション・オーバー・ユニオンで, より優れた推定値を示す。
- 参考スコア(独自算出の注目度): 4.626189039960495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses a critical flaw in MediaPipe Holistic's hand Region of Interest (ROI) prediction, which struggles with non-ideal hand orientations, affecting sign language recognition accuracy. We propose a data-driven approach to enhance ROI estimation, leveraging an enriched feature set including additional hand keypoints and the z-dimension. Our results demonstrate better estimates, with higher Intersection-over-Union compared to the current method. Our code and optimizations are available at https://github.com/sign-language-processing/mediapipe-hand-crop-fix.
- Abstract(参考訳): 本稿では,非理想的手振りに苦慮し,手話認識の精度に影響を及ぼすMediaPipe Holisticの手指領域(ROI)予測の重大な欠陥に対処する。
本稿では,手書きキーポイントとz次元を含む豊富な特徴セットを活用し,ROI推定を向上させるためのデータ駆動型手法を提案する。
提案手法は, 従来手法よりも高いインターセクション・オーバー・ユニオンで, より優れた推定値を示す。
私たちのコードと最適化はhttps://github.com/sign-lang-processing/mediapipe-hand-crop-fix.comで公開されています。
関連論文リスト
- POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search [34.50794776762681]
本稿では,高精度符号化・復号化フレームワークであるParallel Optimal Position Search (POPoS)を紹介する。
Pseudo-range multilateration は、ヒートマップエラーを補正し、ランドマークのローカライゼーションの精度を高めるために使用される。
1ステップ並列アルゴリズムを導入し、計算効率を大幅に向上し、処理時間を短縮する。
論文 参考訳(メタデータ) (2024-10-12T16:28:40Z) - CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization [0.0]
オブジェクトマップ上のローカライズのための最も有望なアプローチの1つは、セマンティックグラフマッチングを使用することである。
従来の問題に対処するために、視覚言語モデルを用いた対応マッチングを強化する。
さらに、inlierはグラフ理論のアプローチを用いて決定的に推定される。
論文 参考訳(メタデータ) (2024-10-04T00:23:20Z) - Towards Robust and Interpretable EMG-based Hand Gesture Recognition using Deep Metric Meta Learning [37.21211404608413]
本稿では,意味的かつ解釈可能な表現の作成を監督するために,EMG PRにおける深層メートル法メタラーニングへのシフトを提案する。
我々は、不正確な決定をよりよく拒否する頑健なクラス近接性に基づく信頼度推定器を導出する。
論文 参考訳(メタデータ) (2024-04-17T23:37:50Z) - CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。
CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。
CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文 参考訳(メタデータ) (2024-01-30T17:38:48Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Generalized Reciprocal Perspective [0.0]
CPM(Reciprocal Perspective)は,情報量を利用してリンク予測精度を大幅に向上することを示す。
これらの結果から,RPは幅広いリンク予測問題に適用可能であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T22:23:14Z) - ConvPoseCNN2: Prediction and Refinement of Dense 6D Object Poses [23.348510362258402]
本稿では,オブジェクトの翻訳と向きを密に予測するPoseCNN法の完全畳み込み拡張を提案する。
これは、方向予測の空間分解能を改善するなど、いくつかの利点がある。
提案手法は,YCB-Videoデータセットにおいて,PoseCNNと同じ精度で実現可能であることを示す。
論文 参考訳(メタデータ) (2022-05-23T08:32:09Z) - Distribution-aware Margin Calibration for Semantic Segmentation in
Images [78.65312390695038]
ジャカードインデックス(ジャカードインデックス、Intersection-over-Union、IoU)は、画像セマンティックセグメンテーションにおいて最も重要な評価指標の一つである。
IoUスコアの直接最適化は非常に困難である。
学習目的として直接使用できるマージン校正法を提案し,データ分散に対するIoUの一般化を改良する。
論文 参考訳(メタデータ) (2021-12-21T22:38:25Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - ProxyFAUG: Proximity-based Fingerprint Augmentation [81.15016852963676]
ProxyFAUGはルールベースで近接性に基づく指紋増強法である。
このデータセット上で最高のパフォーマンスの測位法は、中央値エラーで40%改善され、平均誤差で6%向上した。
論文 参考訳(メタデータ) (2021-02-04T15:59:30Z) - Learning to Predict Context-adaptive Convolution for Semantic
Segmentation [66.27139797427147]
長距離コンテキスト情報は、高性能なセマンティックセグメンテーションを実現するために不可欠である。
空間的に変化する特徴重み付けベクトルを予測するためのコンテキスト適応畳み込みネットワーク(CaC-Net)を提案する。
当社のCaC-Netは,3つの公開データセット上でのセグメンテーション性能に優れています。
論文 参考訳(メタデータ) (2020-04-17T13:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。