Fugu-MT 論文翻訳(概要): Improving Robot Dual-System Motor Learning with Intrinsically Motivated Meta-Control and Latent-Space Experience Imagination

論文の概要: Improving Robot Dual-System Motor Learning with Intrinsically Motivated Meta-Control and Latent-Space Experience Imagination

arxiv url: http://arxiv.org/abs/2004.08830v3
Date: Sun, 1 Nov 2020 09:12:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-11 23:46:58.134436
Title: Improving Robot Dual-System Motor Learning with Intrinsically Motivated Meta-Control and Latent-Space Experience Imagination
Title（参考訳）: 本質的にモチベーションのあるメタコントロルとラテント空間体験によるロボットデュアルシステムモータ学習の改良
Authors: Muhammad Burhan Hafez, Cornelius Weber, Matthias Kerzel, Stefan Wermter
Abstract要約: 本稿では,メタコントローラがモデルベースとモデルフリーの判断をオンラインに調停する,新しいデュアルシステムモーター学習手法を提案する。シミュレーションと実世界における視覚に基づくロボットグリップ学習におけるベースラインと最先端の手法に対する我々のアプローチを評価する。
参考スコア（独自算出の注目度）: 17.356402088852423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Combining model-based and model-free learning systems has been shown to improve the sample efficiency of learning to perform complex robotic tasks. However, dual-system approaches fail to consider the reliability of the learned model when it is applied to make multiple-step predictions, resulting in a compounding of prediction errors and performance degradation. In this paper, we present a novel dual-system motor learning approach where a meta-controller arbitrates online between model-based and model-free decisions based on an estimate of the local reliability of the learned model. The reliability estimate is used in computing an intrinsic feedback signal, encouraging actions that lead to data that improves the model. Our approach also integrates arbitration with imagination where a learned latent-space model generates imagined experiences, based on its local reliability, to be used as additional training data. We evaluate our approach against baseline and state-of-the-art methods on learning vision-based robotic grasping in simulation and real world. The results show that our approach outperforms the compared methods and learns near-optimal grasping policies in dense- and sparse-reward environments.
Abstract（参考訳）: モデルベースとモデルフリーの学習システムを組み合わせることで、複雑なロボットタスクを実行する学習のサンプル効率を向上させることが示されている。しかし、マルチステップ予測に応用された場合、デュアルシステムアプローチは学習モデルの信頼性を考慮しておらず、結果として予測エラーと性能劣化が混在する。本稿では,学習モデルの局所信頼度の推定に基づいて,メタコントローラがモデルベースとモデルフリーの意思決定をオンラインで仲裁する,新しいデュアルシステムモータラーニング手法を提案する。信頼性推定は本質的なフィードバック信号の計算に使われ、モデルを改善するデータにつながる行動を奨励する。提案手法は,学習した潜在空間モデルがその局所的信頼性に基づいて想像的な体験を生成し,追加のトレーニングデータとして用いるという想像と仲裁を統合する。シミュレーションと実世界における視覚に基づくロボット把持学習におけるベースラインおよび最先端手法に対するアプローチを評価した。その結果,提案手法は比較手法よりも優れており,密集環境と疎化環境において最適に近い把握方針を学習できることがわかった。

関連論文リスト

Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳（メタデータ） (2025-03-11T13:50:22Z)
Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文参考訳（メタデータ） (2025-03-03T04:51:40Z)
Towards the Best Solution for Complex System Reliability: Can Statistics Outperform Machine Learning? [39.58317527488534]
本研究は,信頼性評価を改善するための古典的統計手法と機械学習手法の有効性を比較した。従来の統計アルゴリズムは、ブラックボックスの機械学習手法よりも正確で解釈可能な結果が得られることを実証することを目的としている。
論文参考訳（メタデータ） (2024-10-05T17:31:18Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文参考訳（メタデータ） (2022-09-07T15:15:12Z)
Model-Based Imitation Learning Using Entropy Regularization of Model and Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文参考訳（メタデータ） (2022-06-21T04:15:12Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Uncertainty-Aware Model-Based Reinforcement Learning with Application to Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文参考訳（メタデータ） (2021-06-23T06:55:14Z)
Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。 MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文参考訳（メタデータ） (2021-03-25T13:50:24Z)
Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文参考訳（メタデータ） (2020-12-15T16:29:49Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。