論文の概要: Reward Machines for Deep RL in Noisy and Uncertain Environments
- arxiv url: http://arxiv.org/abs/2406.00120v2
- Date: Mon, 17 Jun 2024 16:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:08:51.145851
- Title: Reward Machines for Deep RL in Noisy and Uncertain Environments
- Title(参考訳): 騒音・不確実環境における深部RL用逆流機
- Authors: Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith,
- Abstract要約: Reward Machinesは、命令、安全性の制約、その他の時間的に拡張された報酬に値する振る舞いを指定するための、オートマチックにインスパイアされた構造を提供する。
本稿では,雑音および不確実な環境における深部RLに対するReward Machinesの利用について検討する。
ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムの組を提案する。
- 参考スコア(独自算出の注目度): 18.42439732953552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward Machines provide an automata-inspired structure for specifying instructions, safety constraints, and other temporally extended reward-worthy behaviour. By exposing complex reward function structure, they enable counterfactual learning updates that have resulted in impressive sample efficiency gains. While Reward Machines have been employed in both tabular and deep RL settings, they have typically relied on a ground-truth interpretation of the domain-specific vocabulary that form the building blocks of the reward function. Such ground-truth interpretations can be elusive in many real-world settings, due in part to partial observability or noisy sensing. In this paper, we explore the use of Reward Machines for Deep RL in noisy and uncertain environments. We characterize this problem as a POMDP and propose a suite of RL algorithms that leverage task structure under uncertain interpretation of domain-specific vocabulary. Theoretical analysis exposes pitfalls in naive approaches to this problem, while experimental results show that our algorithms successfully leverage task structure to improve performance under noisy interpretations of the vocabulary. Our results provide a general framework for exploiting Reward Machines in partially observable environments.
- Abstract(参考訳): Reward Machinesは、命令、安全性の制約、その他の時間的に拡張された報酬に値する振る舞いを指定するための、オートマチックにインスパイアされた構造を提供する。
複雑な報酬関数構造を公開することで、サンプル効率が著しく向上した反実的学習の更新が可能になる。
Reward Machinesは表と奥のRL設定の両方で使われているが、典型的には、報酬関数の構成要素を形成するドメイン固有の語彙の地味な解釈に依存している。
このような地味な解釈は、部分的な可観測性やノイズ感知のために、現実世界で多くの場面で解明することができる。
本稿では,雑音および不確実な環境における深部RLに対するReward Machinesの利用について検討する。
我々はこの問題をPOMDPとして特徴付け、ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムスイートを提案する。
理論的解析により,本問題に対する直感的なアプローチの落とし穴が明らかとなり,実験結果から,我々のアルゴリズムはタスク構造をうまく活用し,語彙のノイズの多い解釈下での性能向上を図っている。
本研究では,Reward Machinesを部分的に観測可能な環境で活用するための一般的なフレームワークを提供する。
関連論文リスト
- Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Local-Data-Hiding and Causal Inseparability: Probing Indefinite Causal Structures with Cryptographic Primitives [0.0]
近年の研究では、新しい情報プリミティブとして現れる因果構造における不確定性の可能性が示唆されている。
本研究では,不定因果構造に埋め込まれたエージェントが,特定の因果的背景下で動作しているエージェントよりも優れていることを示す。
本稿では、LBHタスクにそれぞれ役に立たない2つの量子プロセスが一緒に使われる際に有用となる、興味深いスーパーアクティベーション現象を報告する。
論文 参考訳(メタデータ) (2024-07-30T04:54:03Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Noisy Symbolic Abstractions for Deep RL: A case study with Reward
Machines [23.15484341058261]
報酬関数がReward Machinesによってキャプチャされたシンボル言語で指定された場合、RLを介してポリシーを生成する方法について検討する。
雑音の象徴的な抽象概念を用いて、リワードマシンにおけるポリシー学習の問題を定式化する。
論文 参考訳(メタデータ) (2022-11-20T08:13:48Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Provably Sample-Efficient RL with Side Information about Latent Dynamics [12.461789905893026]
本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。
我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T21:07:03Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。