論文の概要: Provable Reset-free Reinforcement Learning by No-Regret Reduction
- arxiv url: http://arxiv.org/abs/2301.02389v1
- Date: Fri, 6 Jan 2023 05:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 00:18:45.188124
- Title: Provable Reset-free Reinforcement Learning by No-Regret Reduction
- Title(参考訳): No-Regret Reduction による確率的リセットフリー強化学習
- Authors: Hoai-An Nguyen, Ching-An Cheng
- Abstract要約: 本稿では,リセットフリーなRLアルゴリズムを体系的に設計する汎用的ノ・レグレット還元法を提案する。
我々のリセットフリーのRLを2プレイヤーゲームに変える。
この2つのプレイヤーゲームにおいてサブリニア後悔を達成することは、元のRL問題においてサブリニア性能後悔とサブリニア総リセット数の両方を持つポリシーを学ぶことを意味する。
- 参考スコア(独自算出の注目度): 13.800970428473134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world reinforcement learning (RL) is often severely limited since
typical RL algorithms heavily rely on the reset mechanism to sample proper
initial states. In practice, the reset mechanism is expensive to implement due
to the need for human intervention or heavily engineered environments. To make
learning more practical, we propose a generic no-regret reduction to
systematically design reset-free RL algorithms. Our reduction turns reset-free
RL into a two-player game. We show that achieving sublinear regret in this two
player game would imply learning a policy that has both sublinear performance
regret and sublinear total number of resets in the original RL problem. This
means that the agent eventually learns to perform optimally and avoid resets.
By this reduction, we design an instantiation for linear Markov decision
processes, which is the first provably correct reset-free RL algorithm to our
knowledge.
- Abstract(参考訳): 実世界の強化学習(RL)は、典型的なRLアルゴリズムが適切な初期状態のサンプリングにリセット機構に強く依存するため、非常に制限されることが多い。
実際には、人間の介入や高度なエンジニアリング環境を必要とするため、リセットメカニズムを実装するのに費用がかかる。
学習をより実用的なものにするために,リセットフリーなrlアルゴリズムを体系的に設計する汎用的非リグレット削減を提案する。
我々のリセットフリーのRLを2プレイヤーゲームに変える。
この2つのプレイヤーゲームでsublinear regretを達成することは、オリジナルのrl問題におけるsublinear performance regretとsublinear total of resetsの両方を持つポリシーを学ぶことを意味する。
これは、エージェントが最終的に最適な実行を学習し、リセットを避けることを意味する。
この削減により、我々は線形マルコフ決定過程のインスタンス化を設計する。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - When Learning Is Out of Reach, Reset: Generalization in Autonomous
Visuomotor Reinforcement Learning [10.469509984098705]
エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。
この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。
提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
論文 参考訳(メタデータ) (2023-03-30T17:59:26Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。