論文の概要: Multi-Keypoint Affordance Representation for Functional Dexterous Grasping
- arxiv url: http://arxiv.org/abs/2502.20018v1
- Date: Thu, 27 Feb 2025 11:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:51.082104
- Title: Multi-Keypoint Affordance Representation for Functional Dexterous Grasping
- Title(参考訳): 機能的デクスタースグラスピングのためのマルチキーポイントアフォーマンス表現
- Authors: Fan Yang, Dongsheng Luo, Wenrui Chen, Jiacheng Lin, Junjie Cai, Kailun Yang, Zhiyong Li, Yaonan Wang,
- Abstract要約: 本稿では,機能的デキスタラスグルーピングのためのマルチキーポイントアプライアンス表現を提案する。
本手法は,機能的接触点の局在化により,タスク駆動型グリップ構成を符号化する。
提案手法は,手頃な局所化精度,一貫性の把握,未知のツールやタスクへの一般化を著しく改善する。
- 参考スコア(独自算出の注目度): 26.961157077703756
- License:
- Abstract: Functional dexterous grasping requires precise hand-object interaction, going beyond simple gripping. Existing affordance-based methods primarily predict coarse interaction regions and cannot directly constrain the grasping posture, leading to a disconnection between visual perception and manipulation. To address this issue, we propose a multi-keypoint affordance representation for functional dexterous grasping, which directly encodes task-driven grasp configurations by localizing functional contact points. Our method introduces Contact-guided Multi-Keypoint Affordance (CMKA), leveraging human grasping experience images for weak supervision combined with Large Vision Models for fine affordance feature extraction, achieving generalization while avoiding manual keypoint annotations. Additionally, we present a Keypoint-based Grasp matrix Transformation (KGT) method, ensuring spatial consistency between hand keypoints and object contact points, thus providing a direct link between visual perception and dexterous grasping actions. Experiments on public real-world FAH datasets, IsaacGym simulation, and challenging robotic tasks demonstrate that our method significantly improves affordance localization accuracy, grasp consistency, and generalization to unseen tools and tasks, bridging the gap between visual affordance learning and dexterous robotic manipulation. The source code and demo videos will be publicly available at https://github.com/PopeyePxx/MKA.
- Abstract(参考訳): 機能的デキスタラスグリップは、単純なグリップを超えて、正確に手-物体の相互作用を必要とする。
既存の可視性に基づく手法は、主に粗い相互作用領域を予測し、把握姿勢を直接拘束できないため、視覚的知覚と操作の切り離しにつながる。
そこで本研究では,機能的接触点の局所化によるタスク駆動型グリップ構成を直接符号化した,機能的デキスタラスグリップのためのマルチキーポイントアプライアンス表現を提案する。
本手法では,手動のキーポイントアノテーションを回避しつつ一般化を実現し,接触誘導型マルチキーポイント評価(CMKA)を導入する。
さらに,手指キーポイントとオブジェクト接触点間の空間的整合性を確保するキーポイントベースのGrasp行列変換(KGT)手法を提案する。
実世界のFAHデータセット、IsaacGymシミュレーション、そして挑戦的なロボットタスクの実験により、我々の手法は、視力のローカライズ精度、一貫性の把握、そして見えないツールやタスクへの一般化を著しく改善し、視覚的空き学習と器用なロボット操作のギャップを埋めることを示した。
ソースコードとデモビデオはhttps://github.com/PopeyePxx/MKAで公開される。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Learning Granularity-Aware Affordances from Human-Object Interaction for Tool-Based Functional Grasping in Dexterous Robotics [27.124273762587848]
オブジェクトの付加的な特徴は、エージェントとオブジェクト間の機能的な相互作用のブリッジとして機能する。
機能的空き地を特定するための粒度対応型空き地特徴抽出法を提案する。
また,手動物体間相互作用領域において,高活性な粗粒度機能を用いて,握り動作の予測を行う。
これは完全なロボット機能把握フレームワークGAAF-Dexを形成する。
論文 参考訳(メタデータ) (2024-06-30T07:42:57Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文 参考訳(メタデータ) (2024-04-02T09:18:52Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Self-Supervised Keypoint Discovery in Behavioral Videos [37.367739727481016]
本研究では, エージェントの姿勢と構造を, 乱れのない行動ビデオから学習する手法を提案する。
本手法では,ビデオフレーム間の差分を再構成するために,幾何的ボトルネックを持つエンコーダデコーダアーキテクチャを用いる。
動作領域のみに焦点をあてることで,手動のアノテーションを必要とせずに直接入力ビデオに焦点をあてる。
論文 参考訳(メタデータ) (2021-12-09T18:55:53Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。