論文の概要: Examining average and discounted reward optimality criteria in
reinforcement learning
- arxiv url: http://arxiv.org/abs/2107.01348v1
- Date: Sat, 3 Jul 2021 05:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 10:27:14.586465
- Title: Examining average and discounted reward optimality criteria in
reinforcement learning
- Title(参考訳): 強化学習における平均と割引報酬最適基準の検討
- Authors: Vektor Dewanto, Marcus Gallagher
- Abstract要約: 2つの主要な最適基準は平均と割引報酬であり、後者は一般に前者の近似と見なされる。
割引報酬はより人気があるが、割引という自然な概念を持たない環境で適用することは問題となる。
我々の貢献には、平均的な報酬と割引された報酬の関係を徹底的に検討することや、RLにおける彼らの長所と短所の議論が含まれる。
- 参考スコア(独自算出の注目度): 4.873362301533825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), the goal is to obtain an optimal policy, for
which the optimality criterion is fundamentally important. Two major optimality
criteria are average and discounted rewards, where the later is typically
considered as an approximation to the former. While the discounted reward is
more popular, it is problematic to apply in environments that have no natural
notion of discounting. This motivates us to revisit a) the progression of
optimality criteria in dynamic programming, b) justification for and
complication of an artificial discount factor, and c) benefits of directly
maximizing the average reward. Our contributions include a thorough examination
of the relationship between average and discounted rewards, as well as a
discussion of their pros and cons in RL. We emphasize that average-reward RL
methods possess the ingredient and mechanism for developing the general
discounting-free optimality criterion (Veinott, 1969) in RL.
- Abstract(参考訳): 強化学習(RL)では、最適性基準が基本的に重要である最適ポリシーを得ることが目的である。
2つの主要な最適性基準は平均と割引報酬であり、後者は一般に前者の近似と見なされる。
割引報酬はより人気があるが、割引という自然な概念を持たない環境で適用することは問題となる。
これは、a) 動的プログラミングにおける最適性基準の進行、b) 人工的割引要因の正当化と複雑化、c) 平均的な報酬を直接最大化する利点を再検討する動機となる。
当社のコントリビューションには,平均値と割引値の関係の徹底的な検証や,rlの長所と短所に関する議論が含まれています。
我々は, 平均回帰RL法が, RLにおける一般割引フリー最適性基準(Veinott, 1969)の具体的および機構を持っていることを強調した。
関連論文リスト
- PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。
PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文 参考訳(メタデータ) (2025-02-06T18:09:00Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - COPR: Continual Human Preference Learning via Optimal Policy Regularization [54.4973136224034]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。
本稿では,最適政策理論からインスピレーションを得たCOPR法を提案する。
論文 参考訳(メタデータ) (2024-02-22T02:20:08Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - On-Policy Deep Reinforcement Learning for the Average-Reward Criterion [9.343119070691735]
平均回帰型政治強化学習(RL)のための理論とアルゴリズムを開発する。
特に,Average-Reward TRPO (ATRPO) が平均再帰基準に適応し,最も困難な MuJuCo 環境において TRPO を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-14T12:12:09Z) - Average-Reward Reinforcement Learning with Trust Region Methods [6.7838662053567615]
我々は、ディスカウントと平均基準を備えた統合信頼領域理論を策定する。
平均的基準により、信頼領域内での新たな性能は摂動解析(PA)理論によって導かれる。
本稿では,平均値制約(Average Value Constraint)と呼ばれる新しい手法を用いて,平均値推定法(APO)という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T09:19:42Z) - A nearly Blackwell-optimal policy gradient method [4.873362301533825]
利得を最適化し,バイアスを緩和する政策勾配法を開発した。
対数障壁を用いて対応する二段階最適化を解くアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-28T06:37:02Z) - Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning
with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。
本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。
いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文 参考訳(メタデータ) (2020-08-18T07:17:53Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。