論文の概要: Context-Hierarchy Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.12597v1
- Date: Fri, 25 Feb 2022 10:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:12:45.210290
- Title: Context-Hierarchy Inverse Reinforcement Learning
- Title(参考訳): 文脈階層逆強化学習
- Authors: Wei Gao, David Hsu, Wee Sun Lee
- Abstract要約: 逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。
本稿では、コンテキスト階層IRL(CHIRL)を提案する。これは、コンテキストを利用してIRLをスケールアップし、複雑な振る舞いの報酬関数を学習する新しいIRLアルゴリズムである。
CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。
- 参考スコア(独自算出の注目度): 30.71220625227959
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An inverse reinforcement learning (IRL) agent learns to act intelligently by
observing expert demonstrations and learning the expert's underlying reward
function. Although learning the reward functions from demonstrations has
achieved great success in various tasks, several other challenges are mostly
ignored. Firstly, existing IRL methods try to learn the reward function from
scratch without relying on any prior knowledge. Secondly, traditional IRL
methods assume the reward functions are homogeneous across all the
demonstrations. Some existing IRL methods managed to extend to the
heterogeneous demonstrations. However, they still assume one hidden variable
that affects the behavior and learn the underlying hidden variable together
with the reward from demonstrations. To solve these issues, we present Context
Hierarchy IRL(CHIRL), a new IRL algorithm that exploits the context to scale up
IRL and learn reward functions of complex behaviors. CHIRL models the context
hierarchically as a directed acyclic graph; it represents the reward function
as a corresponding modular deep neural network that associates each network
module with a node of the context hierarchy. The context hierarchy and the
modular reward representation enable data sharing across multiple contexts and
state abstraction, significantly improving the learning performance. CHIRL has
a natural connection with hierarchical task planning when the context hierarchy
represents subtask decomposition. It enables to incorporate the prior knowledge
of causal dependencies of subtasks and make it capable of solving large complex
tasks by decoupling it into several subtasks and conquering each subtask to
solve the original task. Experiments on benchmark tasks, including a large
scale autonomous driving task in the CARLA simulator, show promising results in
scaling up IRL for tasks with complex reward functions.
- Abstract(参考訳): 逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。
実演から報酬関数を学ぶことは様々なタスクで大きな成功を収めてきたが、他のいくつかの課題はほとんど無視されている。
まず、既存のIRL法は、事前の知識に頼ることなく、報酬関数をゼロから学習しようとする。
第二に、伝統的なIRL法では、報酬関数はすべての実演において均質であると仮定する。
既存のIRLメソッドは、不均一なデモにまで拡張することができた。
しかし、動作に影響を与える1つの隠れた変数を仮定し、デモの報酬とともに隠れた変数を学習する。
これらの問題を解決するために、複雑な振る舞いの報酬関数を学習するためにコンテキストを利用した新しいIRLアルゴリズムであるContext Hierarchy IRL(CHIRL)を提案する。
chirlは、コンテキストを有向非循環グラフとして階層的にモデル化し、各ネットワークモジュールとコンテキスト階層のノードを関連付ける、対応するモジュラーディープニューラルネットワークとして報酬関数を表現する。
コンテキスト階層とモジュール報酬表現は、複数のコンテキスト間のデータ共有と状態抽象化を可能にし、学習性能を大幅に向上させる。
CHIRLは、コンテキスト階層がサブタスク分解を表すとき、階層的なタスク計画と自然な関係を持つ。
サブタスクの因果依存性に関する以前の知識を取り入れ、複数のサブタスクに分離し、各サブタスクを征服して元のタスクを解くことで、大きな複雑なタスクを解くことができる。
CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。
関連論文リスト
- Automated Feature Selection for Inverse Reinforcement Learning [7.278033100480175]
逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
本稿では,基本関数を用いて特徴の候補セットを作成する手法を提案する。
専門家のポリシーを捉えた報酬関数を回収することで、アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-22T10:05:21Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - BC-IRL: Learning Generalizable Reward Functions from Demonstrations [51.535870379280155]
逆強化学習法は、最大エントロピーIRLアプローチと比較して、より一般化された報酬関数を学習する。
我々は、BC-IRLが、説明的な単純なタスクと2つの連続的なロボット制御タスクでより良く一般化する報酬を学習し、一般化設定に挑戦する際のベースラインの成功率の2倍以上を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T17:57:20Z) - Reward Learning using Structural Motifs in Inverse Reinforcement
Learning [3.04585143845864]
逆強化学習(textitIRL)の問題は、ロボティクス、認知、健康といった分野において、ここ数年で急速に進化してきた。
エージェントの報酬関数の学習における現在のIRL手法の非効率性について検討する。
本稿では、まずタスクの(近似的な)構造を有限状態オートマトン(FSA)として学習し、その構造モチーフを用いてIRL問題を解決する新しいIRL法SMIRLを提案する。
論文 参考訳(メタデータ) (2022-09-25T18:34:59Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Shaping with Dynamic Trajectory Aggregation [7.6146285961466]
ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
SARSA-RSは潜在的な機能を学び、それを取得する。
サブゴール系列を用いた軌道アグリゲーションを提案する。
論文 参考訳(メタデータ) (2021-04-13T13:07:48Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally
Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。
本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T22:21:41Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。