論文の概要: Efficiently Learning Recoveries from Failures Under Partial
Observability
- arxiv url: http://arxiv.org/abs/2209.13605v1
- Date: Tue, 27 Sep 2022 18:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:28:35.937291
- Title: Efficiently Learning Recoveries from Failures Under Partial
Observability
- Title(参考訳): 部分的可観測性下での障害から回復を効率的に学ぶ
- Authors: Shivam Vats, Maxim Likhachev, Oliver Kroemer
- Abstract要約: 本稿では,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。
当社のアプローチは,現在の戦略の障害モードを最初に発見することで,ロバストネスを漸進的に向上します。
提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整をほとんど行わずに評価する。
- 参考スコア(独自算出の注目度): 31.891933360081342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Operating under real world conditions is challenging due to the possibility
of a wide range of failures induced by partial observability. In relatively
benign settings, such failures can be overcome by retrying or executing one of
a small number of hand-engineered recovery strategies. By contrast,
contact-rich sequential manipulation tasks, like opening doors and assembling
furniture, are not amenable to exhaustive hand-engineering. To address this
issue, we present a general approach for robustifying manipulation strategies
in a sample-efficient manner. Our approach incrementally improves robustness by
first discovering the failure modes of the current strategy via exploration in
simulation and then learning additional recovery skills to handle these
failures. To ensure efficient learning, we propose an online algorithm Value
Upper Confidence Limit (Value-UCL) that selects what failure modes to
prioritize and which state to recover to such that the expected performance
improves maximally in every training episode. We use our approach to learn
recovery skills for door-opening and evaluate them both in simulation and on a
real robot with little fine-tuning. Compared to open-loop execution, our
experiments show that even a limited amount of recovery learning improves task
success substantially from 71\% to 92.4\% in simulation and from 75\% to 90\%
on a real robot.
- Abstract(参考訳): 実世界の条件下での運用は、部分的な可観測性によって引き起こされる幅広い障害の可能性のために困難である。
比較的良質な設定では、このような障害は少数の手動リカバリ戦略の1つを再試行または実行することで克服することができる。
対照的に、ドアの開閉や家具の組み立てなど、接触の多いシーケンシャルな操作タスクは、徹底的なハンドエンジニアリングには適さない。
この問題に対処するため,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。
当社のアプローチでは,シミュレーションの探索を通じて現在の戦略の障害モードを発見し,これらの障害に対処する新たな回復スキルを学習することで,ロバストネスを漸進的に向上する。
そこで本研究では,学習の効率を高めるために,どの障害モードを優先するか,どの状態から回復するかを選択するオンラインアルゴリズムであるhigher confidence limit(value-ucl)を提案する。
提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整の少ない評価を行う。
オープンループ実行と比較して,リカバリ学習が限られた場合であっても,シミュレーションでは71\%から92.4\%,実際のロボットでは75\%から90\%のタスク成功が著しく向上することが示された。
関連論文リスト
- Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy
Actor-Critic [45.114862253349735]
高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
共通視点から考えると、Q値が実際にRLトレーニングプロセスの後半段階で過小評価されていることが分かる。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Asking for Help: Failure Prediction in Behavioral Cloning through Value
Approximation [8.993237527071756]
本稿では,行動クローン化政策と協調して,状態値関数を学習する手法である行動クローン値近似(BCVA)を導入する。
我々は,ラッチドア開口の移動操作課題にBCVAを適用し,BCVAの有効性を実証した。
論文 参考訳(メタデータ) (2023-02-08T20:56:23Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Reinforcement Learning Experiments and Benchmark for Solving Robotic
Reaching Tasks [0.0]
強化学習はロボットアームによる到達タスクの解決に成功している。
ハイドサイト体験再生探索技術により報奨信号の増大が, オフ・ポリティクス・エージェントの平均リターンを増加させることが示されている。
論文 参考訳(メタデータ) (2020-11-11T14:00:49Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。