論文の概要: Hierarchies of Reward Machines
- arxiv url: http://arxiv.org/abs/2205.15752v2
- Date: Sun, 4 Jun 2023 09:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:12:57.563607
- Title: Hierarchies of Reward Machines
- Title(参考訳): リワードマシンの階層性
- Authors: Daniel Furelos-Blanco, Mark Law, Anders Jonsson, Krysia Broda,
Alessandra Russo
- Abstract要約: リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
- 参考スコア(独自算出の注目度): 75.55324974788475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward machines (RMs) are a recent formalism for representing the reward
function of a reinforcement learning task through a finite-state machine whose
edges encode subgoals of the task using high-level events. The structure of RMs
enables the decomposition of a task into simpler and independently solvable
subtasks that help tackle long-horizon and/or sparse reward tasks. We propose a
formalism for further abstracting the subtask structure by endowing an RM with
the ability to call other RMs, thus composing a hierarchy of RMs (HRM). We
exploit HRMs by treating each call to an RM as an independently solvable
subtask using the options framework, and describe a curriculum-based method to
learn HRMs from traces observed by the agent. Our experiments reveal that
exploiting a handcrafted HRM leads to faster convergence than with a flat HRM,
and that learning an HRM is feasible in cases where its equivalent flat
representation is not.
- Abstract(参考訳): Reward Machine(RM)は、高レベルイベントを用いてタスクのサブゴールを符号化した有限状態マシンを通じて強化学習タスクの報酬関数を表現するための最近のフォーマリズムである。
RMの構造は、タスクを単純かつ独立に解けるサブタスクに分解し、長い水平および/またはスパース報酬タスクに取り組むのに役立つ。
本稿では,RMを他のRMを呼ばせることによってサブタスク構造をさらに抽象化するフォーマリズムを提案し,RMの階層構造を構成する。
我々は、オプションフレームワークを用いてRMへの各呼び出しを独立して解決可能なサブタスクとして扱い、エージェントが観測したトレースからHRMを学習するためのカリキュラムベースの方法を記述する。
実験の結果,手作り HRM を活用すれば,平面 HRM よりも高速な収束が得られ,等価な平坦表現が存在しない場合には,HRM の学習が実現可能であることがわかった。
関連論文リスト
- Learning Robust Reward Machines from Noisy Labels [46.18428376996514]
PROB-IRMは、雑音のある実行トレースから強化学習(RL)エージェントのための堅牢な報酬機(RM)を学習するアプローチである。
ProB-IRMは雑音の痕跡からRMを学習し、それらを利用してRLエージェントを訓練し、そのタスクをうまく解決できることを示す。
論文 参考訳(メタデータ) (2024-08-27T08:41:42Z) - MetaRM: Shifted Distributions Alignment via Meta-Learning [52.94381279744458]
言語モデルアライメントにおけるヒューマンフィードバック(RLHF)からの強化学習は、報酬モデル(RM)の能力に依存している
メタラーニングを利用したメタRMを導入し,その環境分布とRMを整合させる手法を提案する。
大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-05-01T10:43:55Z) - Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z) - Decentralized Graph-Based Multi-Agent Reinforcement Learning Using
Reward Machines [5.34590273802424]
報酬処理装置を用いて各エージェントのタスクを符号化し、報酬関数の内部構造を公開する。
本稿では,各エージェントに局所的なポリシーを付与する分散グラフに基づく強化学習アルゴリズムを提案する。
提案したDGRMアルゴリズムの有効性は,UAVパッケージデリバリーとCOVID-19パンデミック緩和の2つのケーススタディにより評価された。
論文 参考訳(メタデータ) (2021-09-30T21:41:55Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。