論文の概要: Improving Robot Dual-System Motor Learning with Intrinsically Motivated
Meta-Control and Latent-Space Experience Imagination
- arxiv url: http://arxiv.org/abs/2004.08830v3
- Date: Sun, 1 Nov 2020 09:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 23:46:58.134436
- Title: Improving Robot Dual-System Motor Learning with Intrinsically Motivated
Meta-Control and Latent-Space Experience Imagination
- Title(参考訳): 本質的にモチベーションのあるメタコントロルとラテント空間体験によるロボットデュアルシステムモータ学習の改良
- Authors: Muhammad Burhan Hafez, Cornelius Weber, Matthias Kerzel, Stefan
Wermter
- Abstract要約: 本稿では,メタコントローラがモデルベースとモデルフリーの判断をオンラインに調停する,新しいデュアルシステムモーター学習手法を提案する。
シミュレーションと実世界における視覚に基づくロボットグリップ学習におけるベースラインと最先端の手法に対する我々のアプローチを評価する。
- 参考スコア(独自算出の注目度): 17.356402088852423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining model-based and model-free learning systems has been shown to
improve the sample efficiency of learning to perform complex robotic tasks.
However, dual-system approaches fail to consider the reliability of the learned
model when it is applied to make multiple-step predictions, resulting in a
compounding of prediction errors and performance degradation. In this paper, we
present a novel dual-system motor learning approach where a meta-controller
arbitrates online between model-based and model-free decisions based on an
estimate of the local reliability of the learned model. The reliability
estimate is used in computing an intrinsic feedback signal, encouraging actions
that lead to data that improves the model. Our approach also integrates
arbitration with imagination where a learned latent-space model generates
imagined experiences, based on its local reliability, to be used as additional
training data. We evaluate our approach against baseline and state-of-the-art
methods on learning vision-based robotic grasping in simulation and real world.
The results show that our approach outperforms the compared methods and learns
near-optimal grasping policies in dense- and sparse-reward environments.
- Abstract(参考訳): モデルベースとモデルフリーの学習システムを組み合わせることで、複雑なロボットタスクを実行する学習のサンプル効率を向上させることが示されている。
しかし、マルチステップ予測に応用された場合、デュアルシステムアプローチは学習モデルの信頼性を考慮しておらず、結果として予測エラーと性能劣化が混在する。
本稿では,学習モデルの局所信頼度の推定に基づいて,メタコントローラがモデルベースとモデルフリーの意思決定をオンラインで仲裁する,新しいデュアルシステムモータラーニング手法を提案する。
信頼性推定は本質的なフィードバック信号の計算に使われ、モデルを改善するデータにつながる行動を奨励する。
提案手法は,学習した潜在空間モデルがその局所的信頼性に基づいて想像的な体験を生成し,追加のトレーニングデータとして用いるという想像と仲裁を統合する。
シミュレーションと実世界における視覚に基づくロボット把持学習におけるベースラインおよび最先端手法に対するアプローチを評価した。
その結果,提案手法は比較手法よりも優れており,密集環境と疎化環境において最適に近い把握方針を学習できることがわかった。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Towards the Best Solution for Complex System Reliability: Can Statistics Outperform Machine Learning? [39.58317527488534]
本研究は,信頼性評価を改善するための古典的統計手法と機械学習手法の有効性を比較した。
従来の統計アルゴリズムは、ブラックボックスの機械学習手法よりも正確で解釈可能な結果が得られることを実証することを目的としている。
論文 参考訳(メタデータ) (2024-10-05T17:31:18Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Model-Based Imitation Learning Using Entropy Regularization of Model and
Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。
ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。
計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-21T04:15:12Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。