論文の概要: DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation
- arxiv url: http://arxiv.org/abs/2603.07136v1
- Date: Sat, 07 Mar 2026 09:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.039079
- Title: DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation
- Title(参考訳): DexKnot: Dexterous Bag-Knotting Manipulationのための一般化可能なVisuomotor Policy Learning
- Authors: Jiayuan Zhang, Ruihai Wu, Haojun Chen, Yuran Wang, Yifan Zhong, Ceyao Zhang, Yaodong Yang, Yuanpei Chen,
- Abstract要約: 本稿では,鍵点割当と拡散政策を組み合わせ,一般化可能なバッグノッティング政策を学習するフレームワークであるDexKnotを紹介する。
本手法では,実世界の手動変形から収集したキーポイント対応データから,バッグの形状に依存しない表現を学習する。
実験により、DexKnotは、これまで見つからなかったさまざまなインスタンスや変形に対して、信頼性と一貫性のあるノッティング性能を達成することが示された。
- 参考スコア(独自算出の注目度): 29.908224506585544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knotting plastic bags is a common task in daily life, yet it is challenging for robots due to the bags' infinite degrees of freedom and complex physical dynamics. Existing methods often struggle in generalization to unseen bag instances or deformations. To address this, we present DexKnot, a framework that combines keypoint affordance with diffusion policy to learn a generalizable bag-knotting policy. Our approach learns a shape-agnostic representation of bags from keypoint correspondence data collected through real-world manual deformation. For an unseen bag configuration, the keypoints can be identified by matching the representation to a reference. These keypoints are then provided to a diffusion transformer, which generates robot action based on a small number of human demonstrations. DexKnot enables effective policy generalization by reducing the dimensionality of observation space into a sparse set of keypoints. Experiments show that DexKnot achieves reliable and consistent knotting performance across a variety of previously unseen instances and deformations.
- Abstract(参考訳): ビニール袋のノッティングは日常生活において一般的な課題であるが、袋の無限の自由度と複雑な物理力学のためにロボットにとって困難である。
既存の手法は、バッグのインスタンスや変形が見えないように一般化するのに苦労することが多い。
これを解決するために,キーポイントの余裕と拡散政策を組み合わせ,一般化可能なバッグノッティング政策を学習するフレームワークであるDexKnotを提案する。
本手法では,実世界の手動変形から収集したキーポイント対応データから,バッグの形状に依存しない表現を学習する。
未確認のバッグ構成では、キーポイントは、表現を参照にマッチさせることで識別できる。
これらのキーポイントは拡散変換器に提供され、少数の人間のデモンストレーションに基づいてロボットアクションを生成する。
DexKnot は、観測空間の次元性をキーポイントのスパース集合に還元することで、効果的な政策一般化を可能にする。
実験により、DexKnotは、これまで見つからなかったさまざまなインスタンスや変形に対して、信頼性と一貫性のあるノッティング性能を達成することが示された。
関連論文リスト
- Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy [88.65584817043676]
衣料品の操作は、衣服カテゴリー、ジオメトリー、変形の多様性のために重要な課題である。
DexGarmentLabは,デキスタラスな(特にバイマニュアルな)衣料品の操作に特化して設計された最初の環境である。
15のタスクシナリオのための大規模な高品質な3Dアセットを備え、服のモデリングに適したシミュレーション技術を洗練し、シム・トゥ・リアルのギャップを減らす。
論文 参考訳(メタデータ) (2025-05-16T09:26:59Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Learning from Aggregated Data: Curated Bags versus Random Bags [35.394402088653415]
我々は、個々のラベルではなく、集約されたデータラベルで機械学習モデルをトレーニングする可能性を探る。
キュレートしたバッグ設定では,性能の劣化を伴わずに勾配に基づく学習が可能であることを示す。
ランダムなバッグ設定では、バッグのサイズと達成可能なエラー率との間のトレードオフがある。
論文 参考訳(メタデータ) (2023-05-16T15:53:45Z) - Efficient Representations of Object Geometry for Reinforcement Learning
of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。
学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文 参考訳(メタデータ) (2022-11-20T11:47:33Z) - Leveraging Disentangled Representations to Improve Vision-Based
Keystroke Inference Attacks Under Low Data [27.10100715039451]
キーストローク推論攻撃(英: Keystroke inference attack)は、攻撃者が様々なテクニックを利用してユーザのキーストロークを復元するサイドチャネル攻撃の一種である。
教師付き非絡み合い学習により合成データを活用できるビデオ領域適応手法を提案する。
提案手法は,本手法が実生活の小さなトレーニングセットに過度に適合することを防止し,本手法がデータ拡張の有効な形態であることを示す。
論文 参考訳(メタデータ) (2022-04-05T21:24:41Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。