Fugu-MT 論文翻訳(概要): Reward Machines for Deep RL in Noisy and Uncertain Environments

論文の概要: Reward Machines for Deep RL in Noisy and Uncertain Environments

arxiv url: http://arxiv.org/abs/2406.00120v3
Date: Tue, 05 Nov 2024 22:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.128125
Title: Reward Machines for Deep RL in Noisy and Uncertain Environments
Title（参考訳）: 騒音・不確実環境における深部RL用逆流機
Authors: Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith,
Abstract要約: 雑音および不確実な環境下での深部RLに対するReward Machinesの使用について検討した。ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムの組を提案する。
参考スコア（独自算出の注目度）: 18.42439732953552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward Machines provide an automaton-inspired structure for specifying instructions, safety constraints, and other temporally extended reward-worthy behaviour. By exposing the underlying structure of a reward function, they enable the decomposition of an RL task, leading to impressive gains in sample efficiency. Although Reward Machines and similar formal specifications have a rich history of application towards sequential decision-making problems, they critically rely on a ground-truth interpretation of the domain-specific vocabulary that forms the building blocks of the reward function--such ground-truth interpretations are elusive in the real world due in part to partial observability and noisy sensing. In this work, we explore the use of Reward Machines for Deep RL in noisy and uncertain environments. We characterize this problem as a POMDP and propose a suite of RL algorithms that exploit task structure under uncertain interpretation of the domain-specific vocabulary. Through theory and experiments, we expose pitfalls in naive approaches to this problem while simultaneously demonstrating how task structure can be successfully leveraged under noisy interpretations of the vocabulary.
Abstract（参考訳）: Reward Machinesは、命令、安全制約、その他の時間的に拡張された報酬に値する振る舞いを指定するための、オートマトンにインスパイアされた構造を提供する。報酬関数の基盤構造を明らかにすることにより、RLタスクの分解が可能となり、サンプル効率が著しく向上する。 Reward Machines や類似の形式的仕様は、逐次的な意思決定問題への応用の歴史が豊富にあるが、それらは、報酬関数の構成要素を形成するドメイン固有の語彙の基盤的真実解釈に批判的に依存している。本研究では,雑音および不確実な環境下での深部RLに対するReward Machinesの利用について検討する。我々はこの問題をPOMDPとして特徴付け、ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムスイートを提案する。理論と実験を通じて,本問題に対する自然なアプローチの落とし穴を露呈するとともに,語彙のうるさい解釈の下でタスク構造をどのようにうまく活用できるかを同時に示す。

関連論文リスト

Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
Offline Action-Free Learning of Ex-BMDPs by Comparing Diverse Datasets [87.62730694973696]
本稿では,エージェント間の制御可能な特徴ダイナミクスの違いを利用して表現を学習する,サンプル効率のよいアルゴリズムCRAFTを紹介する。我々はCRAFTの性能を理論的に保証し、おもちゃの例でその実現可能性を示す。
論文参考訳（メタデータ） (2025-03-26T22:05:57Z)
Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。 DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文参考訳（メタデータ） (2024-08-19T09:39:01Z)
Local-Data-Hiding and Causal Inseparability: Probing Indefinite Causal Structures with Cryptographic Primitives [0.0]
近年の研究では、新しい情報プリミティブとして現れる因果構造における不確定性の可能性が示唆されている。本研究では,不定因果構造に埋め込まれたエージェントが,特定の因果的背景下で動作しているエージェントよりも優れていることを示す。本稿では、LBHタスクにそれぞれ役に立たない2つの量子プロセスが一緒に使われる際に有用となる、興味深いスーパーアクティベーション現象を報告する。
論文参考訳（メタデータ） (2024-07-30T04:54:03Z)
RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。 RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2024-05-29T22:23:20Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文参考訳（メタデータ） (2022-12-15T16:28:06Z)
Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines [23.15484341058261]
報酬関数がReward Machinesによってキャプチャされたシンボル言語で指定された場合、RLを介してポリシーを生成する方法について検討する。雑音の象徴的な抽象概念を用いて、リワードマシンにおけるポリシー学習の問題を定式化する。
論文参考訳（メタデータ） (2022-11-20T08:13:48Z)
Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-08-19T19:01:30Z)
Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。 CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文参考訳（メタデータ） (2022-06-20T09:22:20Z)
Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-08T04:09:13Z)
Provably Sample-Efficient RL with Side Information about Latent Dynamics [12.461789905893026]
本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-27T21:07:03Z)
A Free Lunch from the Noise: Provable and Practical Exploration for Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文参考訳（メタデータ） (2021-11-22T19:24:57Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。