Fugu-MT 論文翻訳(概要): Learning Generalizable Manipulation Policies with Object-Centric 3D Representations

論文の概要: Learning Generalizable Manipulation Policies with Object-Centric 3D Representations

arxiv url: http://arxiv.org/abs/2310.14386v1
Date: Sun, 22 Oct 2023 18:51:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 00:11:12.846998
Title: Learning Generalizable Manipulation Policies with Object-Centric 3D Representations
Title（参考訳）: オブジェクト中心の3次元表現を用いた一般化操作ポリシーの学習
Authors: Yifeng Zhu, Zhenyu Jiang, Peter Stone, Yuke Zhu
Abstract要約: GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。 GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
参考スコア（独自算出の注目度）: 65.55352131167213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce GROOT, an imitation learning method for learning robust policies with object-centric and 3D priors. GROOT builds policies that generalize beyond their initial training conditions for vision-based manipulation. It constructs object-centric 3D representations that are robust toward background changes and camera views and reason over these representations using a transformer-based policy. Furthermore, we introduce a segmentation correspondence model that allows policies to generalize to new objects at test time. Through comprehensive experiments, we validate the robustness of GROOT policies against perceptual variations in simulated and real-world environments. GROOT's performance excels in generalization over background changes, camera viewpoint shifts, and the presence of new object instances, whereas both state-of-the-art end-to-end learning methods and object proposal-based approaches fall short. We also extensively evaluate GROOT policies on real robots, where we demonstrate the efficacy under very wild changes in setup. More videos and model details can be found in the appendix and the project website: https://ut-austin-rpl.github.io/GROOT .
Abstract（参考訳）: GROOTは,オブジェクト中心および3次元先行するロバストポリシーを学習するための模倣学習手法である。 GROOTは、ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。背景の変化やカメラビューに対して堅牢なオブジェクト中心の3D表現を構築し、トランスフォーマーベースのポリシーを使用してこれらの表現を推論する。さらに,テスト時に新しいオブジェクトにポリシーを一般化できるセグメンテーション対応モデルを導入する。総合実験により,シミュレーション環境と実環境の知覚変動に対するgrootポリシーのロバスト性を検証する。 GROOTのパフォーマンスは、背景の変化、カメラ視点シフト、新しいオブジェクトインスタンスの存在に対する一般化に優れており、最先端のエンドツーエンド学習手法とオブジェクト提案に基づくアプローチはどちらも不足している。我々はまた,実ロボットのgrootポリシーを広範囲に評価し,設定の微妙な変化下での有効性を実証した。さらなるビデオとモデルの詳細は、付録とプロジェクトのWebサイト(source)で見ることができる。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
ArticuBot: Learning Universal Articulated Object Manipulation Policy via Large Scale Simulation [22.43711565969091]
Articubot(アルティキュボット)は、現実世界で目に見えないオブジェクトの多様なカテゴリをオープンするポリシーを学ぶシステムである。学習したポリシーは、3つの異なるリアルロボット設定にゼロショット転送可能であることを示す。
論文参考訳（メタデータ） (2025-03-04T22:51:50Z)
P3-PO: Prescriptive Point Priors for Visuo-Spatial Generalization of Robot Policies [19.12762500264209]
Prescriptive Point Priors for Policies(P3-PO)は、環境のユニークな状態表現を構築する新しいフレームワークである。 P3-POは、新しいオブジェクトインスタンスとより散らかった環境のために、タスク全体で58%と80%のゲインを示す。
論文参考訳（メタデータ） (2024-12-09T18:59:42Z)
Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文参考訳（メタデータ） (2024-10-30T17:37:31Z)
Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文参考訳（メタデータ） (2024-09-12T17:59:07Z)
View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文参考訳（メタデータ） (2024-09-05T16:39:21Z)
HACMan++: Spatially-Grounded Motion Primitives for Manipulation [28.411361363637006]
本稿では,HACMan++における空間的パラメータ化動作プリミティブについて紹介する。環境中の空間的位置にプリミティブを接地することで、オブジェクトの形状を効果的に一般化し、バリエーションを表現できる。提案手法は既存の手法,特に高レベルシーケンシャル推論とオブジェクト一般化の両方を必要とする複雑なシナリオにおいて,優れた性能を発揮する。
論文参考訳（メタデータ） (2024-07-11T15:10:14Z)
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文参考訳（メタデータ） (2024-03-07T17:48:48Z)
Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Efficient Representations of Object Geometry for Reinforcement Learning of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文参考訳（メタデータ） (2022-11-20T11:47:33Z)
SoftGym: Benchmarking Deep Reinforcement Learning for Deformable Object Manipulation [15.477950393687836]
我々は、変形可能なオブジェクトを操作するためのオープンソースのシミュレーションベンチマークであるSoftGymを紹介する。我々はこれらの課題に対して様々なアルゴリズムを評価し、強化学習アルゴリズムの課題を強調した。
論文参考訳（メタデータ） (2020-11-14T03:46:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。