論文の概要: AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.11674v1
- Date: Mon, 13 Apr 2026 16:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.679363
- Title: AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation
- Title(参考訳): AffordSim: Affordance-Aware Robotic Manipulationのためのスケーラブルなデータジェネレータとベンチマーク
- Authors: Mingyang Li, Haofan Xu, Haowen Sun, Xinzhe Chen, Sihua Ren, Liqi Huang, Xinyang Sui, Chenyang Miao, Qiongjie Cui, Zeyang Liu, Xingyu Chen, Xuguang Lan,
- Abstract要約: AffordSimは、オープンボキャブラリの3Dアベイランス予測を操作データ生成パイプラインに統合するシミュレーションフレームワークである。
AffordSimは、私たちのVoxAffordモデルを使って、オブジェクトポイントのクラウド上の空きマップを予測する。
AffordSimはNVIDIA Isaac Simをベースとして、クロスエボディメントをサポートする。
- 参考スコア(独自算出の注目度): 42.842219862127116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation-based data generation has become a dominant paradigm for training robotic manipulation policies, yet existing platforms do not incorporate object affordance information into trajectory generation. As a result, tasks requiring precise interaction with specific functional regions--grasping a mug by its handle, pouring from a cup's rim, or hanging a mug on a hook--cannot be automatically generated with semantically correct trajectories. We introduce AffordSim, the first simulation framework that integrates open-vocabulary 3D affordance prediction into the manipulation data generation pipeline. AffordSim uses our VoxAfford model, an open-vocabulary 3D affordance detector that enhances MLLM output tokens with multi-scale geometric features, to predict affordance maps on object point clouds, guiding grasp pose estimation toward task-relevant functional regions. Built on NVIDIA Isaac Sim with cross-embodiment support (Franka FR3, Panda, UR5e, Kinova), VLM-powered task generation, and novel domain randomization using DA3-based 3D Gaussian reconstruction from real photographs, AffordSim enables automated, scalable generation of affordance-aware manipulation data. We establish a benchmark of 50 tasks across 7 categories (grasping, placing, stacking, pushing/pulling, pouring, mug hanging, long-horizon composite) and evaluate 4 imitation learning baselines (BC, Diffusion Policy, ACT, Pi 0.5). Our results reveal that while grasping is largely solved (53-93% success), affordance-demanding tasks such as pouring into narrow containers (1-43%) and mug hanging (0-47%) remain significantly more challenging for current imitation learning methods, highlighting the need for affordance-aware data generation. Zero-shot sim-to-real experiments on a real Franka FR3 validate the transferability of the generated data.
- Abstract(参考訳): シミュレーションに基づくデータ生成は、ロボット操作ポリシーのトレーニングにおいて支配的なパラダイムとなっているが、既存のプラットフォームでは、物価情報を軌道生成に組み込んでいない。
その結果、特定の機能領域との正確な相互作用を必要とするタスク – カップの縁から注いだり、フックにマグカップを掛けたりする — は、意味論的に正しいトラジェクトリで自動生成できない。
AffordSimは、オープン語彙の3Dアベイランス予測を操作データ生成パイプラインに統合する最初のシミュレーションフレームワークである。
AffordSimは、MLLM出力トークンをマルチスケールの幾何学的特徴で拡張するオープンな3Dアベイランス検出器であるVoxAffordモデルを使用して、オブジェクトポイントクラウド上のアベイランスマップを予測し、タスク関連機能領域に対する把握ポーズ推定を導く。
Franka FR3, Panda, UR5e, Kinova)、VLMによるタスク生成、DA3ベースの実際の写真からの3Dガウス再構成を使った新しいドメインランダム化によって、AffordSimは自動でスケーラブルなアベイランス対応の操作データを生成することができる。
実験では,7つのカテゴリにまたがる50のタスク(彫刻,配置,積み重ね,押圧,注ぐ,マグハング,ロングホライゾン複合)のベンチマークを作成し,4つの模倣学習ベースライン(BC,拡散政策,ACT,Pi 0.5)を評価した。
以上の結果から,狭小容器への投入(1-43%)やマグハング(0-47%)といった手頃な作業は,手頃なデータ生成の必要性を浮き彫りにしており,手頃なデータ生成の難しさを浮き彫りにしていることが明らかとなった。
実のフランカFR3上のゼロショット・シム・トゥ・リアル実験は、生成されたデータの転送可能性を検証する。
関連論文リスト
- URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Development of a Realistic Crowd Simulation Environment for Fine-grained
Validation of People Tracking Methods [0.7223361655030193]
この研究は、群衆シミュレーションの拡張(CrowdSim2)を開発し、人追跡アルゴリズムの適用性を証明する。
シミュレータは非常に人気のあるUnity 3Dエンジンを使用して開発されており、特に環境におけるリアリズムの側面に焦点を当てている。
IOU-Tracker、Deep-Sort、Deep-TAMAという3つのトラッキング手法が生成されたデータセットの検証に使用された。
論文 参考訳(メタデータ) (2023-04-26T09:29:58Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [25.70995300410493]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。