論文の概要: AnyHand: A Large-Scale Synthetic Dataset for RGB(-D) Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2603.25726v1
- Date: Thu, 26 Mar 2026 17:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.423307
- Title: AnyHand: A Large-Scale Synthetic Dataset for RGB(-D) Hand Pose Estimation
- Title(参考訳): AnyHand: RGB(-D)ハンドポース推定のための大規模合成データセット
- Authors: Chen Si, Yulin Liu, Bo Ai, Jianwen Xie, Rolandos Alexandros Potamias, Chuanxia Zheng, Hao Su,
- Abstract要約: 我々はAnyHandという大規模な合成データセットを提示する。
既存のベースラインのトレーニングセットをAnyHandで拡張することで、複数のベンチマークで大幅に向上することを示す。
また,既存のRGBモデルに容易に統合可能な軽量深度融合モジュールも提供しています。
- 参考スコア(独自算出の注目度): 50.62485061150716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present AnyHand, a large-scale synthetic dataset designed to advance the state of the art in 3D hand pose estimation from both RGB-only and RGB-D inputs. While recent works with foundation approaches have shown that an increase in the quantity and diversity of training data can markedly improve performance and robustness in hand pose estimation, existing real-world-collected datasets on this task are limited in coverage, and prior synthetic datasets rarely provide occlusions, arm details, and aligned depth together at scale. To address this bottleneck, our AnyHand contains 2.5M single-hand and 4.1M hand-object interaction RGB-D images, with rich geometric annotations. In the RGB-only setting, we show that extending the original training sets of existing baselines with AnyHand yields significant gains on multiple benchmarks (FreiHAND and HO-3D), even when keeping the architecture and training scheme fixed. More impressively, the model trained with AnyHand shows stronger generalization to the out-of-domain HO-Cap dataset, without any fine-tuning. We also contribute a lightweight depth fusion module that can be easily integrated into existing RGB-based models. Trained with AnyHand, the resulting RGB-D model achieves superior performance on the HO-3D benchmark, showing the benefits of depth integration and the effectiveness of our synthetic data.
- Abstract(参考訳): 我々は、RGBのみの入力とRGB-Dの入力から3Dハンドポーズを推定する最先端の合成データセットであるAnyHandを提示する。
基礎的なアプローチによる最近の研究は、トレーニングデータの量と多様性の増大は、手動ポーズ推定におけるパフォーマンスと堅牢性を大幅に向上させることを示したが、このタスクにおける既存の実世界のデータセットは、カバー範囲が限られており、以前の合成データセットは、オクルージョン、腕の詳細、そして大規模に協調した深さをほとんど提供していない。
このボトルネックに対処するため、AnyHandには2.5Mのシングルハンドと4.1MのハンドオブジェクトインタラクションRGB-Dイメージが含まれており、リッチな幾何学的アノテーションがある。
RGBのみの設定では、既存のベースラインのトレーニングセットをAnyHandで拡張することで、アーキテクチャやトレーニングスキームの修正を維持した場合でも、複数のベンチマーク(FreiHANDとHO-3D)において大きな利益が得られることを示す。
さらに印象的なことに、AnyHandでトレーニングされたモデルは、微調整なしで、ドメイン外のHO-Capデータセットへのより強力な一般化を示している。
また,既存のRGBモデルに容易に統合可能な軽量深度融合モジュールも提供しています。
AnyHandでトレーニングしたRGB-DモデルはHO-3Dベンチマークで優れた性能を示し、深度積分の利点と合成データの有効性を示す。
関連論文リスト
- UniPose: Unified Cross-modality Pose Prior Propagation towards RGB-D data for Weakly Supervised 3D Human Pose Estimation [14.52285662885727]
We present UniPose, a unified cross-modality pose before propagation method for weak supervised 3D human pose Estimation。
UniPoseは、大規模RGBデータセットから自己教師付き学習を通じて3Dドメインに2Dアノテーションを転送する。
CMU PanopticとITOPデータセットの実験は、UniPoseが完全に教師されたメソッドと同等のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-09-27T15:49:30Z) - HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation [29.766317710266765]
本稿では,2次元手動物体間相互作用のための3次元ガウススプラッティングに基づくデータ拡張フレームワークを提案する。
メッシュベースの3DGSを用いてオブジェクトとハンドをモデル化し、マルチレゾリューション入力画像によるレンダリングのぼかし問題に対処する。
両手オブジェクトに対する片手握りポーズ最適化モジュールを拡張し、両手オブジェクト間相互作用のさまざまなポーズを生成する。
論文 参考訳(メタデータ) (2025-01-06T08:48:17Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [65.42565481489132]
人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - Reconstructing Hands in 3D with Transformers [64.15390309553892]
単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリに対する我々のアプローチであるHaMeRは、完全にトランスフォーマーベースのアーキテクチャを踏襲し、以前の作業に比べて精度と堅牢性を大幅に向上させながら、ハンドを解析できる。
論文 参考訳(メタデータ) (2023-12-08T18:59:07Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Two-hand Global 3D Pose Estimation Using Monocular RGB [0.0]
我々は、単眼のRGB入力画像のみを用いて、両手のグローバルな3D関節位置を推定する難しい課題に取り組む。
本稿では,手の位置を正確に把握する多段階畳み込みニューラルネットワークに基づくパイプラインを提案する。
RGBのみの入力を用いて両手の3Dハンドトラッキングを高精度に行う。
論文 参考訳(メタデータ) (2020-06-01T23:53:52Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。