論文の概要: GenORM: Generalizable One-shot Rope Manipulation with Parameter-Aware
Policy
- arxiv url: http://arxiv.org/abs/2306.09872v2
- Date: Tue, 20 Jun 2023 03:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:35:07.589031
- Title: GenORM: Generalizable One-shot Rope Manipulation with Parameter-Aware
Policy
- Title(参考訳): GenORM:パラメータ対応ポリシーによる汎用的なワンショットロープ操作
- Authors: So Kuroki, Jiaxian Guo, Tatsuya Matsushima, Takuya Okubo, Masato
Kobayashi, Yuya Ikeda, Ryosuke Takanami, Paul Yoo, Yutaka Matsuo, Yusuke
Iwasawa
- Abstract要約: GenORMは、操作ポリシーが1つの実世界のデモで異なる変形可能なロープを処理できるようにするフレームワークです。
新しいロープが与えられたとき、GenORMは、実世界の実演とシミュレーションの点雲の格子密度の差を最小限にして、変形可能なロープパラメータを推定する。
実世界のロープ操作のシミュレーションと実世界のロープ操作の実証実験により,本手法が一つの実演で異なるロープを操作できることが明らかとなった。
- 参考スコア(独自算出の注目度): 17.682208882809487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the inherent uncertainty in their deformability during motion,
previous methods in rope manipulation often require hundreds of real-world
demonstrations to train a manipulation policy for each rope, even for simple
tasks such as rope goal reaching, which hinder their applications in our
ever-changing world. To address this issue, we introduce GenORM, a framework
that allows the manipulation policy to handle different deformable ropes with a
single real-world demonstration. To achieve this, we augment the policy by
conditioning it on deformable rope parameters and training it with a diverse
range of simulated deformable ropes so that the policy can adjust actions based
on different rope parameters. At the time of inference, given a new rope,
GenORM estimates the deformable rope parameters by minimizing the disparity
between the grid density of point clouds of real-world demonstrations and
simulations. With the help of a differentiable physics simulator, we require
only a single real-world demonstration. Empirical validations on both simulated
and real-world rope manipulation setups clearly show that our method can
manipulate different ropes with a single demonstration and significantly
outperforms the baseline in both environments (62% improvement in in-domain
ropes, and 15% improvement in out-of-distribution ropes in simulation, 26%
improvement in real-world), demonstrating the effectiveness of our approach in
one-shot rope manipulation.
- Abstract(参考訳): 従来のロープ操作では、動作中の変形性に固有の不確実性があるため、ロープのゴール到達のような単純なタスクであっても、ロープの操作ポリシーをトレーニングするために、何百もの実世界のデモを必要とする場合が多い。
この問題に対処するため、実世界の1つのデモで異なる変形可能なロープを操作できるフレームワークであるGenORMを紹介します。
これを実現するために, 変形可能なロープパラメータに条件付けし, 各種の模擬変形可能なロープをトレーニングすることにより, 異なるロープパラメータに基づいて動作を調整できるようにした。
新しいロープが与えられたとき、GenORMは、実世界の実演とシミュレーションの点雲の格子密度の差を最小限にして、変形可能なロープパラメータを推定する。
微分可能な物理シミュレータの助けを借りて、我々は1つの実世界のデモンストレーションしか必要としない。
シミュレーションと実世界のロープ操作の両セットアップにおける実証的検証により,1回のデモンストレーションで異なるロープを操作でき,両環境でのベースラインを著しく上回る(ドメイン内ロープの62%向上,シミュレーションでの分散外ロープの15%向上,実世界の26%改善)ことが明らかとなり,ワンショットロープ操作におけるアプローチの有効性が実証された。
関連論文リスト
- Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Learning visual-based deformable object rearrangement with local graph
neural networks [4.333220038316982]
本稿では,変形可能なオブジェクト状態とキーポイントの集合とその相互作用を効率的にモデル化できる新しい表現戦略を提案する。
また、変形可能な再配置ダイナミクスを共同でモデル化し、最適操作動作を推定するための光局所GNN学習を提案する。
本手法は, 各種変形可能なアレンジメントタスク(平均96.3%)において, シミュレーション実験における最先端手法よりもはるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2023-10-16T11:42:54Z) - GenDOM: Generalizable One-shot Deformable Object Manipulation with
Parameter-Aware Policy [23.72998685542652]
我々は,1つの実世界の実演だけで異なる変形可能なオブジェクトを操作できるフレームワークであるGenDOMを紹介した。
新しいオブジェクトが推測されると、GenDOMは1つの実世界のデモだけで変形可能なオブジェクトパラメータを推定できる。
シミュレーションおよび実世界のオブジェクト操作設定の実証検証により,本手法が一つの実演で異なるオブジェクトを操作できることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-16T17:18:23Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Online vs. Offline Adaptive Domain Randomization Benchmark [20.69035879843824]
オフラインとオンラインの両方の手法(SimOpt、BayRn、DROID、DROPO)のオープンなベンチマークを行い、各設定やタスクに最も適しているものを列挙する。
オンライン手法は次のイテレーションで学習したポリシーの品質によって制限されているのに対し,オフライン手法はオープンループコマンドによるシミュレーションでトラジェクトリを再生する際に失敗することがあることがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:53Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Pose Guided Person Image Generation with Hidden p-Norm Regression [113.41144529452663]
ポーズ誘導者画像生成タスクを解くための新しいアプローチを提案する。
提案手法では,各アイデンティティに対するポーズ不変特徴行列を推定し,対象ポーズに条件づけられたターゲットの出現を予測できる。
提案手法は, 上記すべての変種シナリオにおいて, 競合性能を示す。
論文 参考訳(メタデータ) (2021-02-19T17:03:54Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。