論文の概要: Bridging the gap between QP-based and MPC-based RL
- arxiv url: http://arxiv.org/abs/2205.08856v1
- Date: Wed, 18 May 2022 10:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 17:06:38.456206
- Title: Bridging the gap between QP-based and MPC-based RL
- Title(参考訳): QPベースとMPCベースのRLのギャップを埋める
- Authors: Shambhuraj Sawant, Sebastien Gros
- Abstract要約: 擬似プログラム(QP)の形式を採り、最適化問題を用いてポリシーと値関数を近似する。
汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、その結果のポリシーの説明可能性を促進する。
本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning methods typically use Deep Neural Networks to
approximate the value functions and policies underlying a Markov Decision
Process. Unfortunately, DNN-based RL suffers from a lack of explainability of
the resulting policy. In this paper, we instead approximate the policy and
value functions using an optimization problem, taking the form of Quadratic
Programs (QPs). We propose simple tools to promote structures in the QP,
pushing it to resemble a linear MPC scheme. A generic unstructured QP offers
high flexibility for learning, while a QP having the structure of an MPC scheme
promotes the explainability of the resulting policy, additionally provides ways
for its analysis. The tools we propose allow for continuously adjusting the
trade-off between the former and the latter during learning. We illustrate the
workings of our proposed method with the resulting structure using a point-mass
task.
- Abstract(参考訳): 強化学習法は一般的にディープニューラルネットワークを用いてマルコフ決定プロセスの根底にある値関数とポリシーを近似する。
残念ながら、DNNベースのRLは、結果として生じるポリシーの説明可能性の欠如に悩まされている。
本稿では,最適化問題を用いて,二次プログラム (qps) の形式を用いて,方針関数と価値関数を近似する。
本稿では,QP の構造を線形 MPC スキームに類似させるシンプルなツールを提案する。
汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、結果のポリシーの説明可能性を促進し、分析の方法も提供する。
学習中に前者と後者のトレードオフを継続的に調整できるツールを提案する。
本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Semi-Infinitely Constrained Markov Decision Processes and Efficient
Reinforcement Learning [17.04643707688075]
通常のCMDPの場合のように、有限個の制約ではなく制約の連続性を考える。
我々はSI-CRLとSI-CPOと呼ぶSICMDPのための2つの強化学習アルゴリズムを考案した。
我々の知る限り、我々は、制約付き強化学習問題を解決するために、半無限プログラミング(SIP)のツールを最初に適用しました。
論文 参考訳(メタデータ) (2023-04-29T12:52:38Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Tailored neural networks for learning optimal value functions in MPC [0.0]
学習ベースの予測制御は、最適化ベースのMPCに代わる有望な代替手段である。
本稿では、線形 MPC に対して、最適値関数と Q-函数を表すために、同様の結果を与える。
論文 参考訳(メタデータ) (2021-12-07T20:34:38Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Structured Policy Iteration for Linear Quadratic Regulator [40.52288246664592]
構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
論文 参考訳(メタデータ) (2020-07-13T06:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。