論文の概要: On the Search for Feedback in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.09478v6
- Date: Thu, 24 Mar 2022 01:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:41:49.277347
- Title: On the Search for Feedback in Reinforcement Learning
- Title(参考訳): 強化学習におけるフィードバック探索について
- Authors: Ran Wang, Karthikeya S. Parunandi, Aayushman Sharma, Raman Goyal,
Suman Chakravorty
- Abstract要約: 我々は,オープンループシーケンスと関連する最適線形フィードバック法則からなる局所的なフィードバック表現の探索を提唱する。
この代替手法は, 高い効率のトレーニングを実現し, 得られた回答は再現可能で信頼性が高く, 得られたクローズド性能は, 最先端のRL技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.29295842374861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of Reinforcement Learning (RL) in an unknown nonlinear dynamical
system is equivalent to the search for an optimal feedback law utilizing the
simulations/ rollouts of the dynamical system. Most RL techniques search over a
complex global nonlinear feedback parametrization making them suffer from high
training times as well as variance. Instead, we advocate searching over a local
feedback representation consisting of an open-loop sequence, and an associated
optimal linear feedback law completely determined by the open-loop. We show
that this alternate approach results in highly efficient training, the answers
obtained are repeatable and hence reliable, and the resulting closed
performance is superior to global state-of-the-art RL techniques. Finally, if
we replan, whenever required, which is feasible due to the fast and reliable
local solution, it allows us to recover global optimality of the resulting
feedback law.
- Abstract(参考訳): 未知の非線形力学系における強化学習(RL)の問題は、力学系のシミュレーション・ロールアウトを利用した最適フィードバック法則の探索と等価である。
ほとんどのRL技術は、複雑な大域的非線形フィードバックパラメトリゼーションを探索し、高いトレーニング時間とばらつきに悩まされる。
その代わり、開ループ列からなる局所フィードバック表現と、開ループによって完全に決定される関連する最適線形フィードバック則の探索を提唱する。
この代替手法は, 高い効率のトレーニングを行ない, 得られた回答は再現性が高く信頼性が高く, 得られたクローズド性能は, 最先端のRL技術よりも優れていることを示す。
最後に, 高速かつ信頼性の高い局所解法により, 必要なときにいつでも再計画し, フィードバック法則のグローバルな最適性を取り戻すことができる。
関連論文リスト
- Hybrid Inverse Reinforcement Learning [37.3281414806537]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Query-Policy Misalignment in Preference-Based Reinforcement Learning [22.757962696678913]
報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致しない可能性があることを示す。
この問題は、ほぼ政治上のクエリと、特別に設計されたハイブリッド体験リプレイを通じて、効果的に対処できることが示される。
提案手法は,人間のフィードバックとRLサンプルの効率の両面で有意な向上を実現している。
論文 参考訳(メタデータ) (2023-05-27T07:55:17Z) - Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z) - Sparse Signal Reconstruction for Nonlinear Models via Piecewise Rational
Optimization [27.080837460030583]
劣化した信号を非線形歪みと限られたサンプリングレートで再構成する手法を提案する。
本手法は,不正確な適合項と罰則として定式化する。
シミュレーションの利点の観点から,この問題の活用方法を示す。
論文 参考訳(メタデータ) (2020-10-29T09:05:19Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。