論文の概要: RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2603.07691v1
- Date: Sun, 08 Mar 2026 15:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.026352
- Title: RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation
- Title(参考訳): RoboPCA:ロボットマニピュレーションのための人間の実証から学ぶPose-centered Affordance Learning
- Authors: Zhanqi Xiao, Ruiping Wang, Xilin Chen,
- Abstract要約: RoboPCAはポーズ中心の価格予測フレームワークで、タスクに適した接触領域を共同で予測し、指示に応じてポーズを付ける。
Human2Affordは、シーンレベルの3D情報を自動的に復元し、人間のデモからポーズ中心の価格アノテーションを推論するデータキュレーションパイプラインである。
RoboPCAは、イメージデータセット、シミュレーション、実際のロボットのベースライン手法よりも優れており、タスクやカテゴリをまたいだ強力な一般化を示している。
- 参考スコア(独自算出の注目度): 35.68205801897266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding spatial affordances -- comprising the contact regions of object interaction and the corresponding contact poses -- is essential for robots to effectively manipulate objects and accomplish diverse tasks. However, existing spatial affordance prediction methods mainly focus on locating the contact regions while delegating the pose to independent pose estimation approaches, which can lead to task failures due to inconsistencies between predicted contact regions and candidate poses. In this work, we propose RoboPCA, a pose-centered affordance prediction framework that jointly predicts task-appropriate contact regions and poses conditioned on instructions. To enable scalable data collection for pose-centered affordance learning, we devise Human2Afford, a data curation pipeline that automatically recovers scene-level 3D information and infers pose-centered affordance annotations from human demonstrations. With Human2Afford, scene depth and the interaction object's mask are extracted to provide 3D context and object localization, while pose-centered affordance annotations are obtained by tracking object points within the contact region and analyzing hand-object interaction patterns to establish a mapping from the 3D hand mesh to the robot end-effector orientation. By integrating geometry-appearance cues through an RGB-D encoder and incorporating mask-enhanced features to emphasize task-relevant object regions into the diffusion-based framework, RoboPCA outperforms baseline methods on image datasets, simulation, and real robots, and exhibits strong generalization across tasks and categories.
- Abstract(参考訳): ロボットがオブジェクトを効果的に操作し、多様なタスクを遂行するためには、空間的余裕(オブジェクトの相互作用の接触領域と対応する接触ポーズ)を理解することが不可欠である。
しかし,既存の空間余剰予測手法は,ポーズを独立ポーズ推定アプローチに委譲しつつ,接触領域の配置に重点を置いており,これは予測された接触領域と候補ポーズとの矛盾によるタスクの失敗につながる可能性がある。
本研究では,タスクに適した接触領域を共同で予測し,指示に照らしたポーズを示す,ポーズ中心のアベイランス予測フレームワークであるRoboPCAを提案する。
ポーズ中心のアベイランス学習のためのスケーラブルなデータ収集を実現するために,シーンレベルの3D情報を自動的に復元し,ポーズ中心のアベイランスアノテーションを人間のデモから推論するデータキュレーションパイプラインであるHuman2Affordを考案した。
また、Human2Affordでは、シーン深さとインタラクションオブジェクトのマスクを抽出して3Dコンテキストとオブジェクトローカライゼーションを提供し、また、接触領域内のオブジェクトポイントを追跡し、手動のインタラクションパターンを分析して、3Dハンドメッシュからロボットのエンドエフェクタ方向へのマッピングを確立することで、ポーズ中心のアプライアンスアノテーションを得る。
RGB-Dエンコーダを通じて幾何学的外観のキューを統合し、タスク関連オブジェクト領域を強調するマスク強化機能を拡散ベースフレームワークに組み込むことで、RoboPCAは画像データセット、シミュレーション、リアルロボットのベースライン手法より優れ、タスクやカテゴリ間で強力な一般化を示す。
関連論文リスト
- HOComp: Interaction-Aware Human-Object Composition [62.93211305213214]
HOCompは、人中心の背景画像に前景オブジェクトを合成するための新しいアプローチである。
実験結果から,HOCompは一貫した外見を持つ人間と物体の相互作用を効果的に生成することが示された。
論文 参考訳(メタデータ) (2025-07-22T17:59:21Z) - Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。
我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。
DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:30:47Z) - Quater-GCN: Enhancing 3D Human Pose Estimation with Orientation and Semi-supervised Training [11.4616369582769]
本稿では,向きによるポーズ推定を強化するために,有向グラフ畳み込みネットワークであるQuater-GCNを紹介する。
Q-GCNは、座標を通してノード関節間の空間的依存関係をキャプチャするだけでなく、2次元空間における骨の回転の動的コンテキストを統合することで、排他的に優れている。
我々は,ラベルのないデータを活用する半教師付きトレーニング戦略でモデルを補完する。
論文 参考訳(メタデータ) (2024-04-30T06:02:59Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。