論文の概要: Affordance-Guided Diffusion Prior for 3D Hand Reconstruction
- arxiv url: http://arxiv.org/abs/2510.00506v1
- Date: Wed, 01 Oct 2025 04:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.383796
- Title: Affordance-Guided Diffusion Prior for 3D Hand Reconstruction
- Title(参考訳): 3次元手指再建に先立つAffordance-Guided Diffusion
- Authors: Naru Suzuki, Takehiko Ohkawa, Tatsuro Banno, Jihyun Lee, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: そこで本稿では,手-物間相互作用の可読性を考慮したテキスト記述による手ポーズ改善のための生成前処理を提案する。
提案手法では,可愛らしい手ポーズの分布を可視性記述に基づいて学習する拡散型生成モデルを用いる。
- 参考スコア(独自算出の注目度): 32.653360446211735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we reconstruct 3D hand poses when large portions of the hand are heavily occluded by itself or by objects? Humans often resolve such ambiguities by leveraging contextual knowledge -- such as affordances, where an object's shape and function suggest how the object is typically grasped. Inspired by this observation, we propose a generative prior for hand pose refinement guided by affordance-aware textual descriptions of hand-object interactions (HOI). Our method employs a diffusion-based generative model that learns the distribution of plausible hand poses conditioned on affordance descriptions, which are inferred from a large vision-language model (VLM). This enables the refinement of occluded regions into more accurate and functionally coherent hand poses. Extensive experiments on HOGraspNet, a 3D hand-affordance dataset with severe occlusions, demonstrate that our affordance-guided refinement significantly improves hand pose estimation over both recent regression methods and diffusion-based refinement lacking contextual reasoning.
- Abstract(参考訳): 3Dの手のポーズは、手の大きな部分がそれ自身や物体によって閉ざされているときにどのように再構築できるのか?
人間は、オブジェクトの形状と関数が典型的にオブジェクトがどのように把握されているかを示唆する空き地のような文脈的知識を活用することで、そのような曖昧さを解消する。
本研究は,手-物間相互作用(HOI)について,手-物間相互作用(HOI)の可読性を考慮したテキスト記述によって導かれる手ポーズ改善のための生成前処理を提案する。
提案手法では,広視野言語モデル(VLM)から推定される可視的手ポーズの分布を,可視的手ポーズから学習する拡散型生成モデルを用いる。
これにより、閉鎖された領域をより正確で機能的に整合したポーズに洗練することができる。
重度閉塞を伴う3次元ハンドアダクタンスデータセットHOGraspNetの広汎な実験により,最近の回帰法と文脈的推論を欠いた拡散ベースリファインメントの双方に対して,手振り推定が大幅に向上することが示された。
関連論文リスト
- ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。