論文の概要: Informativeness of Reward Functions in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.07019v1
- Date: Sat, 10 Feb 2024 18:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:10:52.756423
- Title: Informativeness of Reward Functions in Reinforcement Learning
- Title(参考訳): 強化学習における報酬関数の有益性
- Authors: Rati Devidze, Parameswaran Kamalaruban, Adish Singla
- Abstract要約: 本稿では,情報的報酬関数を設計することで,エージェントの収束を高速化する問題について検討する。
現存する作品では、いくつかの異なる報酬デザインの定式化が検討されている。
本稿では,エージェントの現在の方針に適応し,特定の構造制約の下で最適化できる報奨情報量基準を提案する。
- 参考スコア(独自算出の注目度): 34.40155383189179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward functions are central in specifying the task we want a reinforcement
learning agent to perform. Given a task and desired optimal behavior, we study
the problem of designing informative reward functions so that the designed
rewards speed up the agent's convergence. In particular, we consider
expert-driven reward design settings where an expert or teacher seeks to
provide informative and interpretable rewards to a learning agent. Existing
works have considered several different reward design formulations; however,
the key challenge is formulating a reward informativeness criterion that adapts
w.r.t. the agent's current policy and can be optimized under specified
structural constraints to obtain interpretable rewards. In this paper, we
propose a novel reward informativeness criterion, a quantitative measure that
captures how the agent's current policy will improve if it receives rewards
from a specific reward function. We theoretically showcase the utility of the
proposed informativeness criterion for adaptively designing rewards for an
agent. Experimental results on two navigation tasks demonstrate the
effectiveness of our adaptive reward informativeness criterion.
- Abstract(参考訳): リワード機能は、強化学習エージェントが実行するタスクを特定する上で中心的な役割です。
課題と最適な行動が与えられた場合、設計した報酬がエージェントの収束を早めるように、情報的報酬関数を設計する問題を考察する。
特に,専門家や教師が学習者に対して情報的かつ解釈可能な報酬を提示しようとする,専門家主導の報酬設計について考察する。
既存の作品はいくつかの異なる報酬設計の定式化を検討してきたが、重要な課題は、エージェントの現在のポリシーに適応し、解釈可能な報酬を得るために特定の構造的制約の下で最適化できる報奨情報量基準を定式化することである。
本稿では,特定の報酬関数から報酬を受け取れば,エージェントの現在の政策がどう改善するかを定量的に把握する,新たな報奨情報量基準を提案する。
エージェントの報酬を適応的に設計するための情報量基準の提案の有用性を理論的に示す。
2つのナビゲーションタスクにおける実験結果から,適応報酬情報量基準の有効性が示された。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Admissible Policy Teaching through Reward Design [32.39785256112934]
我々は、強化学習エージェントに報酬設計戦略を奨励し、許容可能な政策の集合から政策を採用するための報酬設計戦略について研究する。
報酬設計者の目標は、新たな報酬関数の下でのほぼ最適な決定的ポリシーが許容可能であることを保証しつつ、その基礎となる報酬関数をコスト効率良く修正することである。
論文 参考訳(メタデータ) (2022-01-06T18:49:57Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。