論文の概要: Noisy Symbolic Abstractions for Deep RL: A case study with Reward
Machines
- arxiv url: http://arxiv.org/abs/2211.10902v2
- Date: Wed, 23 Nov 2022 05:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:10:09.967517
- Title: Noisy Symbolic Abstractions for Deep RL: A case study with Reward
Machines
- Title(参考訳): 深部RLの雑音的記号的抽象化 : Reward Machine を用いた検討
- Authors: Andrew C. Li, Zizhao Chen, Pashootan Vaezipoor, Toryn Q. Klassen,
Rodrigo Toro Icarte, Sheila A. McIlraith
- Abstract要約: 報酬関数がReward Machinesによってキャプチャされたシンボル言語で指定された場合、RLを介してポリシーを生成する方法について検討する。
雑音の象徴的な抽象概念を用いて、リワードマシンにおけるポリシー学習の問題を定式化する。
- 参考スコア(独自算出の注目度): 23.15484341058261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural and formal languages provide an effective mechanism for humans to
specify instructions and reward functions. We investigate how to generate
policies via RL when reward functions are specified in a symbolic language
captured by Reward Machines, an increasingly popular automaton-inspired
structure. We are interested in the case where the mapping of environment state
to a symbolic (here, Reward Machine) vocabulary -- commonly known as the
labelling function -- is uncertain from the perspective of the agent. We
formulate the problem of policy learning in Reward Machines with noisy symbolic
abstractions as a special class of POMDP optimization problem, and investigate
several methods to address the problem, building on existing and new
techniques, the latter focused on predicting Reward Machine state, rather than
on grounding of individual symbols. We analyze these methods and evaluate them
experimentally under varying degrees of uncertainty in the correct
interpretation of the symbolic vocabulary. We verify the strength of our
approach and the limitation of existing methods via an empirical investigation
on both illustrative, toy domains and partially observable, deep RL domains.
- Abstract(参考訳): 自然言語と形式言語は、人間が指示や報酬関数を指定する効果的なメカニズムを提供する。
本稿では,Reward Machinesが取得したシンボル言語で報酬関数が指定された場合,RLによるポリシー生成について検討する。
我々は、エージェントの観点から、環境状態のシンボル(ここでは報酬機械)語彙へのマッピングが不確実である場合に関心を持っている。
我々は,PMDP最適化問題の特別なクラスとして,ノイズの多いシンボル抽象化を用いたリワードマシンにおけるポリシー学習の問題を定式化し,既存の手法と新しい手法に基づいて,個別のシンボルの基底ではなく,リワードマシンの状態を予測することに焦点を当てたいくつかの手法について検討する。
これらの手法を解析し,記号語彙の正しい解釈における不確かさの程度を実験的に評価する。
本手法の強みと既存手法の限界を, 図示的, 玩具的, 部分的観察可能な深層rl領域の両方について実証的に検証した。
関連論文リスト
- Neural Reward Machines [2.0755366440393743]
非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。
ニューラル・リワード・マシン(NRM)は,非記号的RLドメインにおける推論と学習の両方に使用できる,オートマタベースのニューロシンボリック・フレームワークである。
我々は,NRMがSG関数の知識を使わずに,先行知識を組み込むことができないディープRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:44:27Z) - Reward Machines for Deep RL in Noisy and Uncertain Environments [18.42439732953552]
雑音および不確実な環境下での深部RLに対するReward Machinesの使用について検討した。
ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムの組を提案する。
論文 参考訳(メタデータ) (2024-05-31T18:22:09Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Goal Space Abstraction in Hierarchical Reinforcement Learning via
Reachability Analysis [0.0]
本研究では,環境状態の集合を抽象化する創発的表現によるサブゴール発見のための発達機構を提案する。
我々は、この表現をポリシーとともに徐々に学習し、それをナビゲーションタスクで評価して、学習した表現が解釈可能であり、結果としてデータ効率が向上することを示すHRLアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-09-12T06:53:11Z) - Learning Symbolic Representations for Reinforcement Learning of
Non-Markovian Behavior [23.20013012953065]
我々は、状態-作用履歴の学習自動化を支援する有用な状態抽象化を自動的に発見する方法を示す。
その結果、最先端のRLよりもはるかに少ない環境サンプルで最適なポリシーを学習できるエンドツーエンドのアルゴリズムが得られた。
論文 参考訳(メタデータ) (2023-01-08T00:47:19Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Provably Sample-Efficient RL with Side Information about Latent Dynamics [12.461789905893026]
本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。
我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T21:07:03Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。