論文の概要: Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations
- arxiv url: http://arxiv.org/abs/2310.14386v1
- Date: Sun, 22 Oct 2023 18:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:11:12.846998
- Title: Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations
- Title(参考訳): オブジェクト中心の3次元表現を用いた一般化操作ポリシーの学習
- Authors: Yifeng Zhu, Zhenyu Jiang, Peter Stone, Yuke Zhu
- Abstract要約: GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
- 参考スコア(独自算出の注目度): 65.55352131167213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GROOT, an imitation learning method for learning robust policies
with object-centric and 3D priors. GROOT builds policies that generalize beyond
their initial training conditions for vision-based manipulation. It constructs
object-centric 3D representations that are robust toward background changes and
camera views and reason over these representations using a transformer-based
policy. Furthermore, we introduce a segmentation correspondence model that
allows policies to generalize to new objects at test time. Through
comprehensive experiments, we validate the robustness of GROOT policies against
perceptual variations in simulated and real-world environments. GROOT's
performance excels in generalization over background changes, camera viewpoint
shifts, and the presence of new object instances, whereas both state-of-the-art
end-to-end learning methods and object proposal-based approaches fall short. We
also extensively evaluate GROOT policies on real robots, where we demonstrate
the efficacy under very wild changes in setup. More videos and model details
can be found in the appendix and the project website:
https://ut-austin-rpl.github.io/GROOT .
- Abstract(参考訳): GROOTは,オブジェクト中心および3次元先行するロバストポリシーを学習するための模倣学習手法である。
GROOTは、ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
背景の変化やカメラビューに対して堅牢なオブジェクト中心の3D表現を構築し、トランスフォーマーベースのポリシーを使用してこれらの表現を推論する。
さらに,テスト時に新しいオブジェクトにポリシーを一般化できるセグメンテーション対応モデルを導入する。
総合実験により,シミュレーション環境と実環境の知覚変動に対するgrootポリシーのロバスト性を検証する。
GROOTのパフォーマンスは、背景の変化、カメラ視点シフト、新しいオブジェクトインスタンスの存在に対する一般化に優れており、最先端のエンドツーエンド学習手法とオブジェクト提案に基づくアプローチはどちらも不足している。
我々はまた,実ロボットのgrootポリシーを広範囲に評価し,設定の微妙な変化下での有効性を実証した。
さらなるビデオとモデルの詳細は、付録とプロジェクトのWebサイト(source)で見ることができる。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - HACMan++: Spatially-Grounded Motion Primitives for Manipulation [28.411361363637006]
本稿では,HACMan++における空間的パラメータ化動作プリミティブについて紹介する。
環境中の空間的位置にプリミティブを接地することで、オブジェクトの形状を効果的に一般化し、バリエーションを表現できる。
提案手法は既存の手法,特に高レベルシーケンシャル推論とオブジェクト一般化の両方を必要とする複雑なシナリオにおいて,優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-07-11T15:10:14Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Efficient Representations of Object Geometry for Reinforcement Learning
of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。
学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文 参考訳(メタデータ) (2022-11-20T11:47:33Z) - SoftGym: Benchmarking Deep Reinforcement Learning for Deformable Object
Manipulation [15.477950393687836]
我々は、変形可能なオブジェクトを操作するためのオープンソースのシミュレーションベンチマークであるSoftGymを紹介する。
我々はこれらの課題に対して様々なアルゴリズムを評価し、強化学習アルゴリズムの課題を強調した。
論文 参考訳(メタデータ) (2020-11-14T03:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。