Fugu-MT 論文翻訳(概要): HandVQA: Diagnosing and Improving Fine-Grained Spatial Reasoning about Hands in Vision-Language Models

論文の概要: HandVQA: Diagnosing and Improving Fine-Grained Spatial Reasoning about Hands in Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.26362v1
Date: Fri, 27 Mar 2026 12:42:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.505072
Title: HandVQA: Diagnosing and Improving Fine-Grained Spatial Reasoning about Hands in Vision-Language Models
Title（参考訳）: HandVQA:視覚言語モデルにおける手に関する細粒度空間推論の診断と改善
Authors: MD Khalequzzaman Chowdhury Sayem, Mubarrat Tajoar Chowdhury, Yihalem Yimolal Tiruneh, Muneeb A. Khan, Muhammad Salman Ali, Binod Bhattarai, Seungryul Baek,
Abstract要約: 人間の手のきめ細かい説明を理解することは、ロボットによる外科手術のような高精細な設定において重要である。現在の視覚言語モデル(VLM)は、特に複雑で明瞭な手ポーズの解釈において、きめ細かい空間的推論に苦しむ。本稿では,視覚的質問応答による詳細な手指解剖の理解を評価するための大規模診断ベンチマークであるHandVQAを紹介する。
参考スコア（独自算出の注目度）: 14.981963881449486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the fine-grained articulation of human hands is critical in high-stakes settings such as robot-assisted surgery, chip manufacturing, and AR/VR-based human-AI interaction. Despite achieving near-human performance on general vision-language benchmarks, current vision-language models (VLMs) struggle with fine-grained spatial reasoning, especially in interpreting complex and articulated hand poses. We introduce HandVQA, a large-scale diagnostic benchmark designed to evaluate VLMs' understanding of detailed hand anatomy through visual question answering. Built upon high-quality 3D hand datasets (FreiHAND, InterHand2.6M, FPHA), our benchmark includes over 1.6M controlled multiple-choice questions that probe spatial relationships between hand joints, such as angles, distances, and relative positions. We evaluate several state-of-the-art VLMs (LLaVA, DeepSeek and Qwen-VL) in both base and fine-tuned settings, using lightweight fine-tuning via LoRA. Our findings reveal systematic limitations in current models, including hallucinated finger parts, incorrect geometric interpretations, and poor generalization. HandVQA not only exposes these critical reasoning gaps but provides a validated path to improvement. We demonstrate that the 3D-grounded spatial knowledge learned from our benchmark transfers in a zero-shot setting, significantly improving accuracy of model on novel downstream tasks like hand gesture recognition (+10.33%) and hand-object interaction (+2.63%).
Abstract（参考訳）: ロボット支援手術、チップ製造、AR/VRベースの人間とAIのインタラクションなど、高精度な設定では、人間の手のきめ細かい説明を理解することが重要である。一般的な視覚言語ベンチマークでほぼ人間に近い性能を達成しているにもかかわらず、現在の視覚言語モデル(VLM)は、特に複雑で明瞭な手ポーズの解釈において、きめ細かい空間推論に苦慮している。本稿では,視覚的質問応答による詳細な手指解剖の理解を評価するための大規模診断ベンチマークであるHandVQAを紹介する。高品質な3Dハンドデータセット(FreiHAND、InterHand2.6M、FPHA)をベースとして、我々のベンチマークには、角度、距離、相対位置などの手関節間の空間関係を探索する1.6M以上の制御された多重選択質問が含まれている。我々は,LoRAによる軽量微調整を用いて,現状のVLM(LLaVA,DeepSeek,Qwen-VL)をベースおよび微調整の両方で評価した。本研究は, 幻覚的指の部分, 不正確な幾何学的解釈, 一般化不良など, 現行モデルの体系的限界を明らかにした。 HandVQAは、これらの重要な推論ギャップを公開するだけでなく、改善への検証されたパスを提供します。提案手法は,手動認識 (+10.33%) や手動物体相互作用 (+2.63%) といった新しい下流作業におけるモデルの精度を著しく向上させるものである。

関連論文リスト

HandMCM: Multi-modal Point Cloud-based Correspondence State Space Model for 3D Hand Pose Estimation [60.2305990057581]
3Dハンドポーズ推定は、拡張現実のような多くの人間とコンピュータのインタラクションアプリケーションにとって不可欠である。 HandMCMは強力な状態空間モデル(Mamba)に基づく新しい手法である
論文参考訳（メタデータ） (2026-02-02T03:25:43Z)
Monocular 3D Hand Pose Estimation with Implicit Camera Alignment [9.199465050084296]
Augmented Reality (AR)、Virtual Reality (VR)、Human-Computer Interaction (HCI)の応用における重要な問題である。キーポイントアライメントステップと指先損失を含む2次元キーポイント入力から3次元手指関節を推定するための最適化パイプラインを提案する。我々は,EgoDexterとDexter+Objectベンチマークに対する我々のアプローチを評価し,最先端技術と競合することを示す。
論文参考訳（メタデータ） (2025-06-10T18:45:22Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition [1.4732811715354455]
アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。 EffHandEgoNetとEffHandEgoNetの2つの新しい手法を導入する。
論文参考訳（メタデータ） (2024-04-14T17:33:33Z)
Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文参考訳（メタデータ） (2024-03-25T05:12:21Z)
HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。 HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-12-27T22:35:33Z)
LG-Hand: Advancing 3D Hand Pose Estimation with Locally and Globally Kinematic Knowledge [0.693939291118954]
本稿では3次元手ポーズ推定のための強力な手法であるLG-Handを提案する。キネマティックな情報が重要な役割を担い、3次元手ポーズ推定の性能に寄与すると主張している。提案手法は,Person Hand Action Benchmarkデータセット上で有望な結果を得る。
論文参考訳（メタデータ） (2022-11-06T15:26:32Z)
Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文参考訳（メタデータ） (2020-03-30T19:28:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。