論文の概要: Value Summation: A Novel Scoring Function for MPC-based Model-based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.08169v1
- Date: Fri, 16 Sep 2022 20:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:56:51.587911
- Title: Value Summation: A Novel Scoring Function for MPC-based Model-based
Reinforcement Learning
- Title(参考訳): value summation:mpcモデルに基づく強化学習のための新しいスコアリング関数
- Authors: Mehran Raisi, Amirhossein Noohian, Luc Mccutcheon, Saber Fallah
- Abstract要約: 本稿では,MPCに基づくモデルベース強化学習手法の計画モジュールのための新しいスコアリング機能を提案する。
提案手法は,値の割引和を用いた既存のMPCベースのMBRL手法の学習効率を向上させる。
提案手法は,学習効率と平均報酬率の点で,現在最先端のアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.473327661758546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel scoring function for the planning module of
MPC-based model-based reinforcement learning methods to address the inherent
bias of using the reward function to score trajectories. The proposed method
enhances the learning efficiency of existing MPC-based MBRL methods using the
discounted sum of values. The method utilizes optimal trajectories to guide
policy learning and updates its state-action value function based on real-world
and augmented on-board data. The learning efficiency of the proposed method is
evaluated in selected MuJoCo Gym environments as well as in learning locomotion
skills for a simulated model of the Cassie robot. The results demonstrate that
the proposed method outperforms the current state-of-the-art algorithms in
terms of learning efficiency and average reward return.
- Abstract(参考訳): 本稿では,MPCを用いたモデルベース強化学習手法の計画モジュールに対する新たなスコアリング機能を提案する。
提案手法は,値の割引和を用いた既存のMPCベースのMBRL法の学習効率を向上させる。
本手法は,政策学習の指針として最適軌道を利用するとともに,実世界および拡張オンボードデータに基づく状態行動値関数を更新する。
提案手法の学習効率は,選択したMuJoCo Gym環境と,Cassieロボットの模擬モデルを用いたロコモーションスキルの学習において評価される。
提案手法は,学習効率と平均報酬率の点で,現在最先端のアルゴリズムよりも優れていることを示す。
関連論文リスト
- Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow [14.681645502417215]
エネルギーベース正規化フロー(EBFlow)を用いた新しいMaxEnt RLフレームワークを提案する。
このフレームワークは、政策評価ステップと政策改善ステップを統合し、単一の目標トレーニングプロセスをもたらす。
提案手法は,広く採用されている代表ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-22T13:26:26Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Mean-AP Guided Reinforced Active Learning for Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。
MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。
提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文 参考訳(メタデータ) (2023-10-12T14:59:22Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文 参考訳(メタデータ) (2020-05-30T06:39:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。