論文の概要: FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.08246v2
- Date: Thu, 12 Mar 2026 07:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.760897
- Title: FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models
- Title(参考訳): FSAG:拡散モデルによる人-指-指-指比重グラウンドの強化
- Authors: Yifan Han, Yichuan Peng, Pengfei Yi, Junyan Li, Hanqing Wang, Gaojing Zhang, Qi Peng Liu, Wenzhao Lian,
- Abstract要約: デクサラスグリップ合成は機能的意図と物理的実現性を満たす必要があるが、既存のパイプラインはしばしば洗練からセマンティックグラウンドを分離する。
本研究では、事前学習された生成拡散モデルにおいて、対象中心のセマンティックな事前情報を活用することで、ロボットの把握データ収集を回避できるデータ効率フレームワークを提案する。
この結果は,人間の実演と事前学習した生成モデルによって駆動される,スケーラブルでハードウェアに依存しないデキスタラスな操作への道のりを浮き彫りにした。
- 参考スコア(独自算出の注目度): 11.581489292735418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dexterous grasp synthesis must jointly satisfy functional intent and physical feasibility, yet existing pipelines often decouple semantic grounding from refinement, yielding unstable or non-functional contacts under object and pose variations. This challenge is exacerbated by the high dimensionality and kinematic diversity of multi-fingered hands, which makes many methods rely on large, hardware-specific grasp datasets collected in simulation or through costly real-world trials. We propose a data-efficient framework that bypasses robot grasp data collection by exploiting object-centric semantic priors in pretrained generative diffusion models. Temporally aligned and fine-grained grasp affordances are extracted from raw human video demonstrations and fused with 3D scene geometry from depth images to infer semantically grounded contact targets. We further incorporate these affordance regions into the grasp refinement objective, explicitly guiding each fingertip toward its predicted region during optimization. The resulting system produces stable, human-intuitive multi-contact grasps across common objects and tools, while exhibiting strong generalization to previously unseen object instances within a category, pose variations, and multiple hand embodiments.This work (i) introduces a semantic affordance extraction pipeline leveraging vision--language generative priors for dexterous grasping, (ii) demonstrates cross-hand generalization without constructing hardware-specific grasp datasets, and (iii) establishes that a single depth modality suffices for high-performance grasp synthesis when coupled with foundation-model semantics. Our results highlight a path toward scalable, hardware-agnostic dexterous manipulation driven by human demonstrations and pretrained generative models.
- Abstract(参考訳): デクサラス・グリップ合成は機能的意図と物理的実現可能性を共同で満たさなければならないが、既存のパイプラインはしばしば洗練からセマンティックグラウンドを分離し、不安定または非機能的接触をオブジェクトの下に生じ、変動を生じさせる。
この課題は、マルチフィンガーハンドの高次元性とキネマティックな多様性によって悪化し、多くの手法がシミュレーションや高価な実世界の試行を通じて収集された大きなハードウェア固有の把握データセットに依存している。
本研究では、事前学習された生成拡散モデルにおいて、対象中心のセマンティックな事前情報を活用することで、ロボットの把握データ収集を回避できるデータ効率フレームワークを提案する。
生映像から時間的整列ときめ細かな把握能力を抽出し, 深度画像から3次元シーン形状を融合させて意味的接点を推定する。
さらに,これらの余剰領域を把握精度向上目標に組み入れ,最適化中に各指先を予測領域に向けて明示的に誘導する。
得られたシステムは、一般的なオブジェクトやツールをまたいだ安定した、人間の直感的なマルチコンタクトグリップを生成すると同時に、カテゴリ内の未確認オブジェクトインスタンスに強力な一般化を示し、バリエーションを呈し、複数の手体を具現化する。
(i)視覚・言語生成先行情報を活用した意味的余剰抽出パイプラインを導入し,デクスタラスな把握を行う。
(II)ハードウェア固有の把握データセットを構築することなく、クロスハンドの一般化を実証し、
3) 基礎モデル意味論と組み合わせた場合, 単一深さのモダリティが, 高速なグリップ合成に十分であることを示す。
この結果は,人間の実演と事前学習した生成モデルによって駆動される,スケーラブルでハードウェアに依存しないデキスタラスな操作への道のりを浮き彫りにした。
関連論文リスト
- AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis [50.793806818677716]
AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。
AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。
AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-09T06:56:35Z) - UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling [45.29560152294065]
UniHandは、条件付きモーション合成として推定と生成の両方を定式化する統合拡散ベースのフレームワークである。
視覚観察は凍結したバックボーンで符号化され、専用のハンドパーセプトロンは画像特徴から直接手固有のキューを抽出する。
潜在拡散モデルは、様々な条件から一貫した動き列を合成する。
論文 参考訳(メタデータ) (2026-02-25T06:53:15Z) - S3OD: Towards Generalizable Salient Object Detection with Synthetic Data [38.10559747985342]
S3ODは、マルチモーダル拡散パイプラインを通して生成された139,000以上の高解像度画像のデータセットである。
本稿では,有能な物体検出における固有曖昧さを自然に扱えるマルチマスクデコーダを提案する。
論文 参考訳(メタデータ) (2025-10-24T16:10:09Z) - MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。