論文の概要: AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis
- arxiv url: http://arxiv.org/abs/2603.08021v1
- Date: Mon, 09 Mar 2026 06:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.611912
- Title: AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis
- Title(参考訳): AffordGrasp: Affordance-Aware Grasp 合成のためのクロスモーダル拡散
- Authors: Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He,
- Abstract要約: AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。
AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。
AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
- 参考スコア(独自算出の注目度): 50.793806818677716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating human grasping poses that accurately reflect both object geometry and user-specified interaction semantics is essential for natural hand-object interactions in AR/VR and embodied AI. However, existing semantic grasping approaches struggle with the large modality gap between 3D object representations and textual instructions, and often lack explicit spatial or semantic constraints, leading to physically invalid or semantically inconsistent grasps. In this work, we present AffordGrasp, a diffusion-based framework that produces physically stable and semantically faithful human grasps with high precision. We first introduce a scalable annotation pipeline that automatically enriches hand-object interaction datasets with fine-grained structured language labels capturing interaction intent. Building upon these annotations, AffordGrasp integrates an affordance-aware latent representation of hand poses with a dual-conditioning diffusion process, enabling the model to jointly reason over object geometry, spatial affordances, and instruction semantics. A distribution adjustment module further enforces physical contact consistency and semantic alignment. We evaluate AffordGrasp across four instruction-augmented benchmarks derived from HO-3D, OakInk, GRAB, and AffordPose, and observe substantial improvements over state-of-the-art methods in grasp quality, semantic accuracy, and diversity.
- Abstract(参考訳): オブジェクト形状とユーザ指定のインタラクションセマンティクスの両方を正確に反映した人間の握りポーズの生成は、AR/VRと組み込みAIにおける自然な手-オブジェクトインタラクションに不可欠である。
しかし、既存の意味的把握アプローチは、3Dオブジェクト表現とテキスト命令の間の大きなモダリティギャップに悩まされ、しばしば空間的制約や意味的制約が欠如し、物理的に無効または意味的に矛盾する把握に繋がる。
本研究では, 物理的に安定で, 意味的に忠実な人間の把握を高精度に生成する拡散型フレームワークであるAffordGraspを提案する。
まず、手動オブジェクトのインタラクションデータセットと、対話意図をキャプチャするきめ細かい構造化言語ラベルを自動的に強化するスケーラブルなアノテーションパイプラインを紹介します。
これらのアノテーションに基づいて、AffordGraspは2つの条件付き拡散プロセスで手ポーズの空白を意識した潜在表現を統合し、モデルがオブジェクトの幾何学、空間的空白、命令意味論を共同で推論できるようにする。
さらに、分布調整モジュールは、物理的接触整合性とセマンティックアライメントを強制する。
我々は,HO-3D,OakInk,GRAB,AffordPoseから派生した4つの命令強化ベンチマークに対してAffordGraspを評価し,品質,意味的正確性,多様性の把握における最先端手法に対する大幅な改善を観察した。
関連論文リスト
- Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。