論文の概要: Learning Time-Invariant Reward Functions through Model-Based Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.03186v1
- Date: Wed, 7 Jul 2021 12:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:56:34.370880
- Title: Learning Time-Invariant Reward Functions through Model-Based Inverse
Reinforcement Learning
- Title(参考訳): モデルベース逆強化学習による時間不変報酬関数の学習
- Authors: Todor Davchev, Sarah Bechtle, Subramanian Ramamoorthy, Franziska Meier
- Abstract要約: 逆強化学習は、実演行動から一般報酬関数を学習する目的によって動機付けられている。
時間不変コストの学習により実行期間を変更できる定式化を提案する。
提案手法は,不整合な実演から時間的不変報酬を学習することを可能にした。
- 参考スコア(独自算出の注目度): 12.368559816913585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning is a paradigm motivated by the goal of
learning general reward functions from demonstrated behaviours. Yet the notion
of generality for learnt costs is often evaluated in terms of robustness to
various spatial perturbations only, assuming deployment at fixed speeds of
execution. However, this is impractical in the context of robotics and building
time-invariant solutions is of crucial importance. In this work, we propose a
formulation that allows us to 1) vary the length of execution by learning
time-invariant costs, and 2) relax the temporal alignment requirements for
learning from demonstration. We apply our method to two different types of cost
formulations and evaluate their performance in the context of learning reward
functions for simulated placement and peg in hole tasks. Our results show that
our approach enables learning temporally invariant rewards from misaligned
demonstration that can also generalise spatially to out of distribution tasks.
- Abstract(参考訳): 逆強化学習は、実演行動から一般報酬関数を学習する目的によって動機付けられたパラダイムである。
しかし、学習コストの一般性の概念は、様々な空間的摂動に対する堅牢性の観点から、しばしば評価され、実行の一定速度での展開を仮定する。
しかし、ロボット工学の文脈では非現実的であり、時間不変のソリューションを構築することは重要である。
本研究では,1)時間不変コストの学習による実行時間の変化と,2)実演から学ぶための時間的アライメント要件の緩和を可能にする定式化を提案する。
提案手法を2種類のコスト定式化に適用し,その性能をシミュレーションによる報酬関数の学習とホールタスクにおけるpegの学習の文脈で評価した。
提案手法は,分散作業の空間的一般化が可能な不一致デモンストレーションから,時間的不変報酬を学習できることを示す。
関連論文リスト
- Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Reinforcement Learning with Non-Exponential Discounting [28.092095671829508]
本稿では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開くものである。
論文 参考訳(メタデータ) (2022-09-27T14:13:16Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Inverse Reinforcement Learning in the Continuous Setting with Formal
Guarantees [31.122125783516726]
逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。
未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-02-16T03:17:23Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。