論文の概要: An Offline Time-aware Apprenticeship Learning Framework for Evolving
Reward Functions
- arxiv url: http://arxiv.org/abs/2305.09070v1
- Date: Mon, 15 May 2023 23:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:53:06.306001
- Title: An Offline Time-aware Apprenticeship Learning Framework for Evolving
Reward Functions
- Title(参考訳): 報酬機能を進化させるためのオフライン時間学習学習フレームワーク
- Authors: Xi Yang, Ge Gao, Min Chi
- Abstract要約: Apprenticeship Learning(AL)は、専門家のデモンストレーションを観察し、模倣することによって効果的な意思決定ポリシーを誘導するプロセスである。
既存のALアプローチの多くは、ヘルスケアのような人間中心のタスクで一般的に見られる報酬関数の進化に対応するように設計されていない。
本稿では,時間を考慮した階層型EMエネルギベースサブトラジェクトリ(theMES)ALフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.63724590121946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Apprenticeship learning (AL) is a process of inducing effective
decision-making policies via observing and imitating experts' demonstrations.
Most existing AL approaches, however, are not designed to cope with the
evolving reward functions commonly found in human-centric tasks such as
healthcare, where offline learning is required. In this paper, we propose an
offline Time-aware Hierarchical EM Energy-based Sub-trajectory (THEMES) AL
framework to tackle the evolving reward functions in such tasks. The
effectiveness of THEMES is evaluated via a challenging task -- sepsis
treatment. The experimental results demonstrate that THEMES can significantly
outperform competitive state-of-the-art baselines.
- Abstract(参考訳): Apprenticeship Learning(AL)は、専門家のデモンストレーションを観察し、模倣することによって効果的な意思決定ポリシーを誘導するプロセスである。
しかし、既存のALアプローチの多くは、オフライン学習が必要な医療のような人間中心のタスクで一般的に見られる報酬関数に対処するためには設計されていない。
本稿では,このようなタスクにおける報酬機能の発展に取り組むために,オフライン時間対応型階層型emエネルギベースサブトラジェクション(テーマ)alフレームワークを提案する。
TheMESの有効性は、難題である敗血症治療を通じて評価される。
実験の結果,テーマは競争状態のベースラインを大きく上回ることがわかった。
関連論文リスト
- GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via
Stationary Distribution Correction Estimation [1.4703485217797363]
GO-DICEはゴール条件のロングホライゾンシーケンシャルタスクのためのオフラインIL技術である。
拡張的なDICEファミリーの技法に触発された政策学習は、静止分布の空間内で両方のレベルが成立する。
実験結果はGO-DICEが最近のベースラインより優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2023-12-17T19:47:49Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。
CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。
実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Delayed Reinforcement Learning by Imitation [31.932677462399468]
遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-11T15:27:33Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Addressing practical challenges in Active Learning via a hybrid query
strategy [1.607440473560015]
本稿では、コールドスタート、オラクルの不確実性、Active Learnerの性能評価という3つの実践的な課題を同時に解決するハイブリッドクエリ戦略ベースのALフレームワークを提案する。
提案するフレームワークの堅牢性は,3つの異なる環境と産業環境で評価される。
論文 参考訳(メタデータ) (2021-10-07T20:38:14Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。