論文の概要: On the Search for Feedback in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.09478v6
- Date: Thu, 24 Mar 2022 01:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:41:49.277347
- Title: On the Search for Feedback in Reinforcement Learning
- Title(参考訳): 強化学習におけるフィードバック探索について
- Authors: Ran Wang, Karthikeya S. Parunandi, Aayushman Sharma, Raman Goyal,
Suman Chakravorty
- Abstract要約: 我々は,オープンループシーケンスと関連する最適線形フィードバック法則からなる局所的なフィードバック表現の探索を提唱する。
この代替手法は, 高い効率のトレーニングを実現し, 得られた回答は再現可能で信頼性が高く, 得られたクローズド性能は, 最先端のRL技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.29295842374861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of Reinforcement Learning (RL) in an unknown nonlinear dynamical
system is equivalent to the search for an optimal feedback law utilizing the
simulations/ rollouts of the dynamical system. Most RL techniques search over a
complex global nonlinear feedback parametrization making them suffer from high
training times as well as variance. Instead, we advocate searching over a local
feedback representation consisting of an open-loop sequence, and an associated
optimal linear feedback law completely determined by the open-loop. We show
that this alternate approach results in highly efficient training, the answers
obtained are repeatable and hence reliable, and the resulting closed
performance is superior to global state-of-the-art RL techniques. Finally, if
we replan, whenever required, which is feasible due to the fast and reliable
local solution, it allows us to recover global optimality of the resulting
feedback law.
- Abstract(参考訳): 未知の非線形力学系における強化学習(RL)の問題は、力学系のシミュレーション・ロールアウトを利用した最適フィードバック法則の探索と等価である。
ほとんどのRL技術は、複雑な大域的非線形フィードバックパラメトリゼーションを探索し、高いトレーニング時間とばらつきに悩まされる。
その代わり、開ループ列からなる局所フィードバック表現と、開ループによって完全に決定される関連する最適線形フィードバック則の探索を提唱する。
この代替手法は, 高い効率のトレーニングを行ない, 得られた回答は再現性が高く信頼性が高く, 得られたクローズド性能は, 最先端のRL技術よりも優れていることを示す。
最後に, 高速かつ信頼性の高い局所解法により, 必要なときにいつでも再計画し, フィードバック法則のグローバルな最適性を取り戻すことができる。
関連論文リスト
- Umbrella Reinforcement Learning -- computationally efficient tool for hard non-linear problems [0.0]
このアプローチは、ポリシー勾配を用いてニューラルネットワークに基づいて実現される。
計算効率と実装の普遍性により、全ての最先端のアルゴリズムが利用可能であり、スパース報酬、状態トラップ、端末状態の欠如といった難しいRL問題に適用できる。
論文 参考訳(メタデータ) (2024-11-21T13:34:36Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Query-Policy Misalignment in Preference-Based Reinforcement Learning [21.212703100030478]
報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致しない可能性があることを示す。
この問題は、ほぼ政治上のクエリと、特別に設計されたハイブリッド体験リプレイを通じて、効果的に対処できることが示される。
提案手法は,人間のフィードバックとRLサンプルの効率の両面で有意な向上を実現している。
論文 参考訳(メタデータ) (2023-05-27T07:55:17Z) - Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z) - Sparse Signal Reconstruction for Nonlinear Models via Piecewise Rational
Optimization [27.080837460030583]
劣化した信号を非線形歪みと限られたサンプリングレートで再構成する手法を提案する。
本手法は,不正確な適合項と罰則として定式化する。
シミュレーションの利点の観点から,この問題の活用方法を示す。
論文 参考訳(メタデータ) (2020-10-29T09:05:19Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。