論文の概要: Reward Learning using Structural Motifs in Inverse Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2209.13489v1
- Date: Sun, 25 Sep 2022 18:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 14:49:16.736617
- Title: Reward Learning using Structural Motifs in Inverse Reinforcement
Learning
- Title(参考訳): 逆強化学習における構造モチーフを用いた逆学習
- Authors: Raeid Saqur
- Abstract要約: 逆強化学習(textitIRL)の問題は、ロボティクス、認知、健康といった分野において、ここ数年で急速に進化してきた。
エージェントの報酬関数の学習における現在のIRL手法の非効率性について検討する。
本稿では、まずタスクの(近似的な)構造を有限状態オートマトン(FSA)として学習し、その構造モチーフを用いてIRL問題を解決する新しいIRL法SMIRLを提案する。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Inverse Reinforcement Learning (\textit{IRL}) problem has seen rapid
evolution in the past few years, with important applications in domains like
robotics, cognition, and health. In this work, we explore the inefficacy of
current IRL methods in learning an agent's reward function from expert
trajectories depicting long-horizon, complex sequential tasks. We hypothesize
that imbuing IRL models with structural motifs capturing underlying tasks can
enable and enhance their performance. Subsequently, we propose a novel IRL
method, SMIRL, that first learns the (approximate) structure of a task as a
finite-state-automaton (FSA), then uses the structural motif to solve the IRL
problem. We test our model on both discrete grid world and high-dimensional
continuous domain environments. We empirically show that our proposed approach
successfully learns all four complex tasks, where two foundational IRL
baselines fail. Our model also outperforms the baselines in sample efficiency
on a simpler toy task. We further show promising test results in a modified
continuous domain on tasks with compositional reward functions.
- Abstract(参考訳): Inverse Reinforcement Learning (\textit{IRL})問題はこの数年間で急速に進化し、ロボット工学、認知、健康といった分野に重要な応用が見られた。
本研究では, エージェントの報酬関数を, 長時間ホリゾンで複雑な逐次タスクを表現した専門家の軌跡から学習する上で, 現在のirl法の非効率性について検討する。
irlモデルに基盤となるタスクをキャプチャする構造的モチーフを付与することで、パフォーマンスを向上できると仮定した。
次に、まずタスクの(近似的な)構造を有限状態オートマトン(FSA)として学習し、次にその構造モチーフを用いてIRL問題を解決する新しいIRL手法SMIRLを提案する。
我々は、離散格子世界と高次元連続ドメイン環境の両方でモデルをテストする。
提案手法は2つの基本的IRLベースラインが失敗する4つの複雑なタスクをすべて学習する。
また,本モデルでは,より簡単な玩具作業において,サンプル効率のベースラインを上回ります。
さらに,構成報酬機能を有するタスクに対して,修正連続ドメインで有望なテスト結果を示す。
関連論文リスト
- Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。
提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。
DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文 参考訳(メタデータ) (2024-10-17T23:13:32Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Context-Hierarchy Inverse Reinforcement Learning [30.71220625227959]
逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。
本稿では、コンテキスト階層IRL(CHIRL)を提案する。これは、コンテキストを利用してIRLをスケールアップし、複雑な振る舞いの報酬関数を学習する新しいIRLアルゴリズムである。
CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。
論文 参考訳(メタデータ) (2022-02-25T10:29:05Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Critic PI2: Master Continuous Planning via Policy Improvement with Path
Integrals and Deep Actor-Critic Reinforcement Learning [23.25444331531546]
木に基づく計画手法はチェスや囲碁といった個別の領域で大きな成功を収めている。
本稿では,トラジェクティブ最適化,深いアクター・アクター学習,モデルに基づく強化学習の利点を組み合わせた批判型PI2を提案する。
当社の作業は、モデルベースの計画システムのコンポーネントとその利用方法を学ぶための、新たな方向性を開くものです。
論文 参考訳(メタデータ) (2020-11-13T04:14:40Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。