論文の概要: On the Expressivity of Markov Reward
- arxiv url: http://arxiv.org/abs/2111.00876v1
- Date: Mon, 1 Nov 2021 12:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:01:03.908219
- Title: On the Expressivity of Markov Reward
- Title(参考訳): マルコフ報酬の表現性について
- Authors: David Abel, Will Dabney, Anna Harutyunyan, Mark K. Ho, Michael L.
Littman, Doina Precup, Satinder Singh
- Abstract要約: 本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
- 参考スコア(独自算出の注目度): 89.96685777114456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward is the driving force for reinforcement-learning agents. This paper is
dedicated to understanding the expressivity of reward as a way to capture tasks
that we would want an agent to perform. We frame this study around three new
abstract notions of "task" that might be desirable: (1) a set of acceptable
behaviors, (2) a partial ordering over behaviors, or (3) a partial ordering
over trajectories. Our main results prove that while reward can express many of
these tasks, there exist instances of each task type that no Markov reward
function can capture. We then provide a set of polynomial-time algorithms that
construct a Markov reward function that allows an agent to optimize tasks of
each of these three types, and correctly determine when no such reward function
exists. We conclude with an empirical study that corroborates and illustrates
our theoretical findings.
- Abstract(参考訳): リワードは強化学習エージェントの推進力である。
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動のセット,(2)行動上の部分順序付け,(3)軌道上の部分順序付けという,3つの新しい「タスク」の抽象概念を中心に構成する。
私たちの主な結果は、報酬はこれらのタスクの多くを表現できるが、それぞれのタスクタイプには、マルコフ報酬関数がキャプチャできないインスタンスが存在することを示しています。
次に,マルコフ報酬関数を構成する多項式時間アルゴリズムのセットを提供し,エージェントがこれら3種類のタスクを最適化し,その報酬関数が存在しないかを正しく判断する。
結論は,我々の理論的知見を裏付ける実証的研究である。
関連論文リスト
- Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - Informativeness of Reward Functions in Reinforcement Learning [34.40155383189179]
本稿では,情報的報酬関数を設計することで,エージェントの収束を高速化する問題について検討する。
現存する作品では、いくつかの異なる報酬デザインの定式化が検討されている。
本稿では,エージェントの現在の方針に適応し,特定の構造制約の下で最適化できる報奨情報量基準を提案する。
論文 参考訳(メタデータ) (2024-02-10T18:36:42Z) - Reward Bonuses with Gain Scheduling Inspired by Iterative Deepening
Search [8.071506311915396]
本稿では,タスク指向の報酬関数に本質的なボーナスを付加する手法を提案する。
様々なボーナスが現在までに設計されており、グラフ理論における深さ優先と幅優先の探索アルゴリズムに類似している。
2つの探索アルゴリズムの利点を継承することが知られている反復的深化探索にインスパイアされた、設計されたボーナスにゲインスケジューリングを適用する。
論文 参考訳(メタデータ) (2022-12-21T04:52:13Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。
エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文 参考訳(メタデータ) (2021-06-07T10:35:52Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。