論文の概要: Reward Tweaking: Maximizing the Total Reward While Planning for Short
Horizons
- arxiv url: http://arxiv.org/abs/2002.03327v2
- Date: Tue, 23 Jun 2020 12:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 14:16:15.584081
- Title: Reward Tweaking: Maximizing the Total Reward While Planning for Short
Horizons
- Title(参考訳): Reward Tweaking:ショート・ホライズンズの計画中におけるトータル・リワードの最大化
- Authors: Chen Tessler and Shie Mannor
- Abstract要約: Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する代理報酬関数を学習する。
報酬の調整は、短い地平線を計画しているにもかかわらず、エージェントがより長い水平方向のリターンに導くことを示す。
- 参考スコア(独自算出の注目度): 66.43848057122311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, the discount factor $\gamma$ controls the agent's
effective planning horizon. Traditionally, this parameter was considered part
of the MDP; however, as deep reinforcement learning algorithms tend to become
unstable when the effective planning horizon is long, recent works refer to
$\gamma$ as a hyper-parameter -- thus changing the underlying MDP and
potentially leading the agent towards sub-optimal behavior on the original
task. In this work, we introduce \emph{reward tweaking}. Reward tweaking learns
a surrogate reward function $\tilde r$ for the discounted setting that induces
optimal behavior on the original finite-horizon total reward task.
Theoretically, we show that there exists a surrogate reward that leads to
optimality in the original task and discuss the robustness of our approach.
Additionally, we perform experiments in high-dimensional continuous control
tasks and show that reward tweaking guides the agent towards better
long-horizon returns although it plans for short horizons.
- Abstract(参考訳): 強化学習では、$\gamma$がエージェントの効果的な計画方針を制御する。
伝統的に、このパラメータはMDPの一部と考えられてきたが、効率的な計画の地平線が長くなると、深い強化学習アルゴリズムが不安定になる傾向にあるため、最近の研究では、$\gamma$をハイパーパラメーターと呼び、基礎となるMDPを変更し、エージェントを元のタスクの準最適動作へと導く可能性がある。
本研究では, \emph{reward tweaking} を導入する。
Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する割引設定に対して、代理報酬関数 $\tilde r$ を学ぶ。
理論的には、元のタスクに最適性をもたらす代理報酬が存在することを示し、我々のアプローチの堅牢性について議論する。
さらに、我々は高次元連続制御タスクの実験を行い、報酬調整が短い地平線を計画しながらも、エージェントをより長い水平リターンに導くことを示す。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Online Reinforcement Learning in Markov Decision Process Using Linear
Programming [1.0878040851638]
マルコフ決定過程(MDP)におけるオンライン強化学習について検討した。
我々は,高い確率で$widetildeO(LXsqrtTA)$ regretを実現する,シンプルで効率的なモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-03-31T22:21:41Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。