論文の概要: THETA: Triangulated Hand-State Estimation for Teleoperation and Automation in Robotic Hand Control
- arxiv url: http://arxiv.org/abs/2601.07768v1
- Date: Mon, 12 Jan 2026 17:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.749017
- Title: THETA: Triangulated Hand-State Estimation for Teleoperation and Automation in Robotic Hand Control
- Title(参考訳): TheTA:ロボットハンド制御における遠隔操作と自動化のための三角型手の状態推定
- Authors: Alex Huang, Akshay Karthik,
- Abstract要約: 本稿では,3つのウェブカメラを用いた手指の相対的な関節角度(テータ)を推定するための三角法に基づくトラッキング手法を提案する。
リアルタイム推論では、THETAは同時フレームをキャプチャし、ハンドリージョンをセグメント化し、それらをフィルタリングし、分類のための9チャネルテンソルをコンパイルする。
THETAは、医療、言語、製造の分野でコスト効率が高く、ユーザフレンドリーな遠隔操作を実現する可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The teleoperation of robotic hands is limited by the high costs of depth cameras and sensor gloves, commonly used to estimate hand relative joint positions (XYZ). We present a novel, cost-effective approach using three webcams for triangulation-based tracking to approximate relative joint angles (theta) of human fingers. We also introduce a modified DexHand, a low-cost robotic hand from TheRobotStudio, to demonstrate THETA's real-time application. Data collection involved 40 distinct hand gestures using three 640x480p webcams arranged at 120-degree intervals, generating over 48,000 RGB images. Joint angles were manually determined by measuring midpoints of the MCP, PIP, and DIP finger joints. Captured RGB frames were processed using a DeepLabV3 segmentation model with a ResNet-50 backbone for multi-scale hand segmentation. The segmented images were then HSV-filtered and fed into THETA's architecture, consisting of a MobileNetV2-based CNN classifier optimized for hierarchical spatial feature extraction and a 9-channel input tensor encoding multi-perspective hand representations. The classification model maps segmented hand views into discrete joint angles, achieving 97.18% accuracy, 98.72% recall, F1 Score of 0.9274, and a precision of 0.8906. In real-time inference, THETA captures simultaneous frames, segments hand regions, filters them, and compiles a 9-channel tensor for classification. Joint-angle predictions are relayed via serial to an Arduino, enabling the DexHand to replicate hand movements. Future research will increase dataset diversity, integrate wrist tracking, and apply computer vision techniques such as OpenAI-Vision. THETA potentially ensures cost-effective, user-friendly teleoperation for medical, linguistic, and manufacturing applications.
- Abstract(参考訳): ロボットハンドの遠隔操作は、手の相対的関節位置(XYZ)を推定するために一般的に使用されるディープカメラとセンサーグローブの高コストによって制限される。
本稿では,3つのウェブカメラを用いた手指の相対的な関節角度(テータ)を推定するための三角法に基づくトラッキング手法を提案する。
また、TheRobotStudioの低コストロボットハンドであるDexHandを導入し、THETAのリアルタイム応用を実演した。
データ収集には、120度間隔で配置された640x480pのウェブカメラを3つ使用し、48,000RGB以上の画像を生成する40の異なる手ジェスチャーが含まれていた。
関節角度はMPP,PIP,DIP指関節の中間点を測定し,手動で測定した。
キャプチャされたRGBフレームは、マルチスケールハンドセグメンテーションのためのResNet-50バックボーンを備えたDeepLabV3セグメンテーションモデルを用いて処理された。
セグメント化された画像は、階層的空間特徴抽出に最適化されたMobileNetV2ベースのCNN分類器と、多視点手表現を符号化した9チャンネル入力テンソルで構成される。
分類モデルは、手の動きを離散的な関節角度に分類し、97.18%の精度、98.72%のリコール、F1スコア0.9274の精度、0.8906の精度を実現した。
リアルタイム推論では、THETAは同時フレームをキャプチャし、ハンドリージョンをセグメント化し、それらをフィルタリングし、分類のための9チャネルテンソルをコンパイルする。
関節角予測はArduinoにシリアルで中継されるため、DexHandは手の動きを再現することができる。
今後の研究は、データセットの多様性を高め、手首追跡を統合し、OpenAI-Visionのようなコンピュータビジョン技術を適用する予定である。
THETAは、医療、言語、製造の分野でコスト効率が高く、ユーザフレンドリーな遠隔操作を実現する可能性がある。
関連論文リスト
- Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics [0.0]
3Dプリンティングガラスに装着した1台の自家中心型RGB-Dカメラから、オフラインのハンドシャドイングとマッピングパイプラインを提示する。
パイプラインはMediaPipe Handsを使用して、手当たり21のランドマークを検出する。
グリップコントローラは、親指の指形状を4段階のフォールバック階層で把握するようにマッピングする。
論文 参考訳(メタデータ) (2026-03-11T23:53:28Z) - Cross-Embodiment Dexterous Hand Articulation Generation via Morphology-Aware Learning [82.63833405368159]
既存のエンドツーエンドメソッドでは、特定の手で大規模なデータセットをトレーニングする必要がある。
本稿では,固有グラフに基づくクロスボデーメントグリップ生成のためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T15:57:00Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - Simultaneous prediction of hand gestures, handedness, and hand keypoints
using thermal images [0.6087960723103347]
赤外線カメラで捉えたサーマルデータを用いて手指のジェスチャー分類,手指検出,手指キーポイントの局所化を同時に行う手法を提案する。
提案手法は,共有エンコーダデコーダ層を含む新しい深層マルチタスク学習アーキテクチャを用いて,各タスクに専用の3つのブランチを付加する。
論文 参考訳(メタデータ) (2023-03-02T19:25:40Z) - Simultaneous Estimation of Hand Configurations and Finger Joint Angles
using Forearm Ultrasound [8.753262480814493]
前腕超音波画像は、手の動きを理解するのに使える筋骨格の可視化を提供する。
我々は,MPP関節角度を予測するためのCNNベースのディープラーニングパイプラインを提案する。
ヒューマン・マシン・インタフェースのリアルタイム制御を目的としたMPP関節角度と手構成の両方を推定するための低遅延パイプラインが提案されている。
論文 参考訳(メタデータ) (2022-11-29T02:06:19Z) - Hand gesture recognition using 802.11ad mmWave sensor in the mobile
device [2.5476515662939563]
スマートフォンにおける802.11ad 60GHz (mmWave) 技術を用いたAI支援手振り認識の実現可能性について検討する。
我々は、時間分割デュプレックス(TDD)によってレーダーセンシングと通信波形が共存できるプロトタイプシステムを構築した。
センシングデータを収集し、100ミリ秒以内にジェスチャーを予測する。
論文 参考訳(メタデータ) (2022-11-14T03:36:17Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - InterHand2.6M: A Dataset and Baseline for 3D Interacting Hand Pose
Estimation from a Single RGB Image [71.17227941339935]
大規模データセットであるInterHand2.6Mと,1枚のRGB画像から3次元インタラクションハンドポーズ推定を行うネットワークであるInterNetを提案する。
実験では,InterHand2.6Mのインタラクションハンドデータを利用する場合,3次元インタラクションハンドポーズ推定の精度が大きく向上することを示した。
この新しいデータセットの強力なベースラインとして機能するInterHand2.6M上でのInterNetの精度についても報告する。
論文 参考訳(メタデータ) (2020-08-21T05:15:58Z) - IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand
Gesture Recognition [11.917058689674327]
我々は,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを導入する。
このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。
本データセットでは,3つの3次元CNNモデルの性能を,孤立的かつ連続的なリアルタイムHGRのタスクに基づいて評価する。
論文 参考訳(メタデータ) (2020-04-20T08:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。