論文の概要: CMAX++ : Leveraging Experience in Planning and Execution using
Inaccurate Models
- arxiv url: http://arxiv.org/abs/2009.09942v3
- Date: Thu, 15 Oct 2020 18:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:33:35.740655
- Title: CMAX++ : Leveraging Experience in Planning and Execution using
Inaccurate Models
- Title(参考訳): CMAX++ : 不正確なモデルを用いた計画と実行の経験の活用
- Authors: Anirudh Vemula, J. Andrew Bagnell, Maxim Likhachev
- Abstract要約: CMAX++は、実際の経験を活用して、ロボットタスクの連続的な繰り返しよりも、結果のプランの品質を改善するアプローチである。
繰り返し回数が増えるにつれて、CMAX++の完全性と収束性を最適なパスコストに保証する。
また、CMAX++は、トラック摩擦が誤ってモデル化された3D移動ロボットナビゲーションや、物体の質量が不明な7Dピック・アンド・プレイスタスクなど、シミュレーションされたロボットタスクのベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 26.674062544226636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given access to accurate dynamical models, modern planning approaches are
effective in computing feasible and optimal plans for repetitive robotic tasks.
However, it is difficult to model the true dynamics of the real world before
execution, especially for tasks requiring interactions with objects whose
parameters are unknown. A recent planning approach, CMAX, tackles this problem
by adapting the planner online during execution to bias the resulting plans
away from inaccurately modeled regions. CMAX, while being provably guaranteed
to reach the goal, requires strong assumptions on the accuracy of the model
used for planning and fails to improve the quality of the solution over
repetitions of the same task. In this paper we propose CMAX++, an approach that
leverages real-world experience to improve the quality of resulting plans over
successive repetitions of a robotic task. CMAX++ achieves this by integrating
model-free learning using acquired experience with model-based planning using
the potentially inaccurate model. We provide provable guarantees on the
completeness and asymptotic convergence of CMAX++ to the optimal path cost as
the number of repetitions increases. CMAX++ is also shown to outperform
baselines in simulated robotic tasks including 3D mobile robot navigation where
the track friction is incorrectly modeled, and a 7D pick-and-place task where
the mass of the object is unknown leading to discrepancy between true and
modeled dynamics.
- Abstract(参考訳): 正確な力学モデルへのアクセスを考えると、現代の計画手法は反復的なロボット作業において実現可能な最適計画の計算に有効である。
しかし、特にパラメータが不明なオブジェクトとのインタラクションを必要とするタスクにおいて、実行前に実世界の真のダイナミクスをモデル化することは困難である。
最近の計画手法であるCMAXは、実行中にプランナーをオンラインに適応させ、その結果の計画を不正確なモデル化された領域から逸脱させることによってこの問題に対処する。
CMAXは、目標を達成するために確実に保証されているが、計画に使用されるモデルの正確性について強い仮定を必要とし、同じタスクの繰り返しよりもソリューションの品質を改善するのに失敗する。
本稿では,ロボットタスクを繰り返し繰り返すことで得られる計画の品質を向上させるために,実世界体験を活用する手法であるcmax++を提案する。
CMAX++は、獲得した経験と、潜在的に不正確なモデルを使ったモデルベースプランニングを統合することで、これを実現している。
繰り返し回数が増えるにつれて、cmax++の完全性と漸近収束性が最適経路コストに保証できる保証を提供する。
また、CMAX++は、トラック摩擦が誤ってモデル化された3D移動ロボットナビゲーションや、物体の質量が不明な7Dピック・アンド・プレイスタスクなど、シミュレーションされたロボットタスクのベースラインよりも優れている。
関連論文リスト
- DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment [47.273405862634085]
本稿では、優先学習と報酬誘導行動選択に基づくデータ効率の一般学習フレームワークを提案する。
DeformPAMは、長い水平タスクを複数のアクションプリミティブに分解し、人間の好みデータを使って暗黙の報酬モデルを訓練する。
実世界の長軸変形可能な3つのオブジェクト操作タスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-15T13:19:16Z) - Solving Motion Planning Tasks with a Scalable Generative Model [15.858076912795621]
本稿では,運転シーンのダイナミクスを学習する生成モデルに基づく効率的な解を提案する。
我々の革新的なデザインは、モデルがフルオートレグレッシブモードとパーシャルオートレグレッシブモードの両方で動作できるようにする。
提案した生成モデルは,様々な動作計画タスクの基盤となる可能性がある。
論文 参考訳(メタデータ) (2024-07-03T03:57:05Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文 参考訳(メタデータ) (2020-06-08T21:38:15Z) - Planning and Execution using Inaccurate Models with Provable Guarantees [23.733488427663396]
計画と実行のインターリーブ手法としてCMAXを提案する。
CMAXは、実際の実行中に計画戦略をオンラインで適用し、計画中のダイナミクスの相違を考慮する。
提案した計画および実行フレームワークの完全性および効率性に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2020-03-09T20:17:13Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。