論文の概要: Reward Machines for Deep RL in Noisy and Uncertain Environments
- arxiv url: http://arxiv.org/abs/2406.00120v3
- Date: Tue, 05 Nov 2024 22:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:07.010176
- Title: Reward Machines for Deep RL in Noisy and Uncertain Environments
- Title(参考訳): 騒音・不確実環境における深部RL用逆流機
- Authors: Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith,
- Abstract要約: 雑音および不確実な環境下での深部RLに対するReward Machinesの使用について検討した。
ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムの組を提案する。
- 参考スコア(独自算出の注目度): 18.42439732953552
- License:
- Abstract: Reward Machines provide an automaton-inspired structure for specifying instructions, safety constraints, and other temporally extended reward-worthy behaviour. By exposing the underlying structure of a reward function, they enable the decomposition of an RL task, leading to impressive gains in sample efficiency. Although Reward Machines and similar formal specifications have a rich history of application towards sequential decision-making problems, they critically rely on a ground-truth interpretation of the domain-specific vocabulary that forms the building blocks of the reward function--such ground-truth interpretations are elusive in the real world due in part to partial observability and noisy sensing. In this work, we explore the use of Reward Machines for Deep RL in noisy and uncertain environments. We characterize this problem as a POMDP and propose a suite of RL algorithms that exploit task structure under uncertain interpretation of the domain-specific vocabulary. Through theory and experiments, we expose pitfalls in naive approaches to this problem while simultaneously demonstrating how task structure can be successfully leveraged under noisy interpretations of the vocabulary.
- Abstract(参考訳): Reward Machinesは、命令、安全制約、その他の時間的に拡張された報酬に値する振る舞いを指定するための、オートマトンにインスパイアされた構造を提供する。
報酬関数の基盤構造を明らかにすることにより、RLタスクの分解が可能となり、サンプル効率が著しく向上する。
Reward Machines や類似の形式的仕様は、逐次的な意思決定問題への応用の歴史が豊富にあるが、それらは、報酬関数の構成要素を形成するドメイン固有の語彙の基盤的真実解釈に批判的に依存している。
本研究では,雑音および不確実な環境下での深部RLに対するReward Machinesの利用について検討する。
我々はこの問題をPOMDPとして特徴付け、ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムスイートを提案する。
理論と実験を通じて,本問題に対する自然なアプローチの落とし穴を露呈するとともに,語彙のうるさい解釈の下でタスク構造をどのようにうまく活用できるかを同時に示す。
関連論文リスト
- Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Local-Data-Hiding and Causal Inseparability: Probing Indefinite Causal Structures with Cryptographic Primitives [0.0]
近年の研究では、新しい情報プリミティブとして現れる因果構造における不確定性の可能性が示唆されている。
本研究では,不定因果構造に埋め込まれたエージェントが,特定の因果的背景下で動作しているエージェントよりも優れていることを示す。
本稿では、LBHタスクにそれぞれ役に立たない2つの量子プロセスが一緒に使われる際に有用となる、興味深いスーパーアクティベーション現象を報告する。
論文 参考訳(メタデータ) (2024-07-30T04:54:03Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Noisy Symbolic Abstractions for Deep RL: A case study with Reward
Machines [23.15484341058261]
報酬関数がReward Machinesによってキャプチャされたシンボル言語で指定された場合、RLを介してポリシーを生成する方法について検討する。
雑音の象徴的な抽象概念を用いて、リワードマシンにおけるポリシー学習の問題を定式化する。
論文 参考訳(メタデータ) (2022-11-20T08:13:48Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Provably Sample-Efficient RL with Side Information about Latent Dynamics [12.461789905893026]
本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。
我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T21:07:03Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。