論文の概要: Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2209.12483v1
- Date: Mon, 26 Sep 2022 07:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:47:39.610300
- Title: Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning
- Title(参考訳): Delayed Geometric Discounts: 強化学習のための代替基準
- Authors: Firas Jarboui, Ahmed Akakzia
- Abstract要約: 強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The endeavor of artificial intelligence (AI) is to design autonomous agents
capable of achieving complex tasks. Namely, reinforcement learning (RL)
proposes a theoretical background to learn optimal behaviors. In practice, RL
algorithms rely on geometric discounts to evaluate this optimality.
Unfortunately, this does not cover decision processes where future returns are
not exponentially less valuable. Depending on the problem, this limitation
induces sample-inefficiency (as feed-backs are exponentially decayed) and
requires additional curricula/exploration mechanisms (to deal with sparse,
deceptive or adversarial rewards). In this paper, we tackle these issues by
generalizing the discounted problem formulation with a family of delayed
objective functions. We investigate the underlying RL problem to derive: 1) the
optimal stationary solution and 2) an approximation of the optimal
non-stationary control. The devised algorithms solved hard exploration problems
on tabular environment and improved sample-efficiency on classic simulated
robotics benchmarks.
- Abstract(参考訳): 人工知能(AI)の取り組みは、複雑なタスクを達成できる自律エージェントを設計することである。
すなわち、強化学習(RL)は最適な振る舞いを学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
残念ながら、これは将来のリターンが指数関数的にあまり価値がない決定プロセスをカバーするものではない。
問題によっては、この制限はサンプル非効率(フィードバックは指数関数的に減衰する)を誘導し、追加の曲率/爆発機構(スパース、デセプティブ、または敵対的な報酬を扱うため)を必要とする。
本稿では,遅延対象関数群を用いて,割引問題定式化を一般化し,この問題に取り組む。
導出するRL問題について検討する。
1)最適定常解と
2)最適非定常制御の近似
考案したアルゴリズムは,表環境における難解な探索問題を解決し,従来のシミュレーションロボットベンチマークにおけるサンプル効率を改善した。
関連論文リスト
- Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Open Problems in Applied Deep Learning [2.1320960069210475]
この研究は、機械学習メカニズムを二段階最適化問題として定式化する。
内部レベル最適化ループは、トレーニングデータに基づいて評価された適切に選択された損失関数を最小化する。
外部レベルの最適化ループは、あまりよく研究されておらず、バリデーションデータに基づいて評価された適切に選択された性能指標を最大化する。
論文 参考訳(メタデータ) (2023-01-26T18:55:43Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Towards Tractable Optimism in Model-Based Reinforcement Learning [37.51073590932658]
成功させるためには、楽観的なRLアルゴリズムは真の値関数(最適化)を過大に見積もる必要があるが、不正確な(推定誤差)ほどではない。
我々は,これらのスケーラブルな楽観的モデルベースアルゴリズムを,トラクタブルノイズ拡張MDPの解法として再解釈する。
この誤差が低減された場合、楽観的なモデルベースRLアルゴリズムは、連続制御問題における最先端性能と一致することを示す。
論文 参考訳(メタデータ) (2020-06-21T20:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。