論文の概要: A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with
Symbolic Reward Machines
- arxiv url: http://arxiv.org/abs/2204.09772v1
- Date: Wed, 20 Apr 2022 20:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 05:04:32.956593
- Title: A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with
Symbolic Reward Machines
- Title(参考訳): 象徴的報酬マシンを用いた逆強化学習への階層ベイズ的アプローチ
- Authors: Weichao Zhou, Wenchao Li
- Abstract要約: 不特定報酬は、サンプル効率を低下させ、強化学習問題において望ましくない振る舞いを誘発することができる。
本稿では,報酬信号を指定する際に,高いレベルのタスク知識を取り入れたシンボル型報酬機を提案する。
- 参考スコア(独自算出の注目度): 7.661766773170363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A misspecified reward can degrade sample efficiency and induce undesired
behaviors in reinforcement learning (RL) problems. We propose symbolic reward
machines for incorporating high-level task knowledge when specifying the reward
signals. Symbolic reward machines augment existing reward machine formalism by
allowing transitions to carry predicates and symbolic reward outputs. This
formalism lends itself well to inverse reinforcement learning, whereby the key
challenge is determining appropriate assignments to the symbolic values from a
few expert demonstrations. We propose a hierarchical Bayesian approach for
inferring the most likely assignments such that the concretized reward machine
can discriminate expert demonstrated trajectories from other trajectories with
high accuracy. Experimental results show that learned reward machines can
significantly improve training efficiency for complex RL tasks and generalize
well across different task environment configurations.
- Abstract(参考訳): 不特定報酬は、サンプル効率を低下させ、強化学習(RL)問題において望ましくない振る舞いを引き起こす。
報酬信号を指定する際に,高いレベルのタスク知識を取り入れたシンボル型報酬機を提案する。
象徴的報酬機械は、遷移が述語と象徴的報酬の出力を運べるようにすることで、既存の報酬機械形式を強化している。
この形式主義は逆強化学習に有利であり、いくつかの専門家による実証から象徴的価値に対する適切な割り当てを決定することが鍵となる。
提案する階層的ベイズ的手法は, 帰納的報酬機が, 精度の高い他の軌跡からの軌跡を識別できるような, 最も可能性の高い課題を推定するものである。
実験結果から,学習した報奨機は複雑なRLタスクのトレーニング効率を大幅に向上し,タスク環境の異なる構成でよく一般化できることがわかった。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Programmatic Reward Design by Example [7.188571996124112]
不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。
本稿では,強化学習環境における報酬関数の特定にプログラムを用いることで,テキストプログラミングによる報酬設計を提案する。
本論文の主な貢献は,有能なデモンストレーションから最適なプログラム報酬関数を推定できる確率的フレームワークである。
論文 参考訳(メタデータ) (2021-12-14T05:46:24Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。