論文の概要: AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Afford Correspondence
- arxiv url: http://arxiv.org/abs/2604.10579v1
- Date: Sun, 12 Apr 2026 10:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.111412
- Title: AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Afford Correspondence
- Title(参考訳): AffordGen: Afford対応を用いた一般化可能なオブジェクト操作のための多元的デモ生成
- Authors: Jiawei Zhang, Kaizhe Hu, Yingqian Huang, Yuanchen Ju, Zhengrong Xue, Huazhe Xu,
- Abstract要約: AffordGenは、新しいロボット操作トラジェクトリを生成するフレームワークである。
これは、余裕のセマンティック・ジェネリザビリティと、エンドツーエンド学習のリアクティブ・ロバスト性を組み合わせたものである。
実験によると、AffordGenでトレーニングされたポリシーは高い成功率を実現し、ゼロショットの一般化を真に見えないオブジェクトに可能にしている。
- 参考スコア(独自算出の注目度): 40.46817120361278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of modern imitation learning methods in robot manipulation, their performance is often constrained by geometric variations due to limited data diversity. Leveraging powerful 3D generative models and vision foundation models (VFMs), the proposed AffordGen framework overcomes this limitation by utilizing the semantic correspondence of meaningful keypoints across large-scale 3D meshes to generate new robot manipulation trajectories. This large-scale, affordance-aware dataset is then used to train a robust, closed-loop visuomotor policy, combining the semantic generalizability of affordances with the reactive robustness of end-to-end learning. Experiments in simulation and the real world show that policies trained with AffordGen achieve high success rates and enable zero-shot generalization to truly unseen objects, significantly improving data efficiency in robot learning.
- Abstract(参考訳): 近年のロボット操作における模倣学習手法の成功にもかかわらず、その性能はデータ多様性の制限による幾何学的変動によって制約されることが多い。
強力な3D生成モデルとビジョンファウンデーションモデル(VFM)を活用して、提案されたAffordGenフレームワークは、大規模な3Dメッシュ間で有意義なキーポイントの意味的対応を利用して、新しいロボット操作トラジェクトリを生成することにより、この制限を克服する。
この大規模でアベイランス対応のデータセットは、アベイランスのセマンティック・ジェネリザビリティとエンドツーエンド学習のリアクティブ・ロバスト性を組み合わせた、堅牢でクローズドなループビズモータポリシのトレーニングに使用される。
シミュレーションと実世界の実験により、AffordGenでトレーニングされたポリシーは高い成功率を達成し、ゼロショットの一般化を真に見えないオブジェクトに可能にし、ロボット学習におけるデータ効率を著しく改善することが示された。
関連論文リスト
- ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。