論文の概要: User-Interactive Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.10629v1
- Date: Sat, 21 May 2022 15:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:29:33.371420
- Title: User-Interactive Offline Reinforcement Learning
- Title(参考訳): ユーザ対話型オフライン強化学習
- Authors: Phillip Swazinna, Steffen Udluft, Thomas Runkler
- Abstract要約: オフラインのRLアルゴリズムは、学習されたポリシーと元のポリシーに近い、最も重要なハイパーパラメータをチューニングできない。
本稿では,このハイパーパラメータを実行時に調整可能なアルゴリズムを提案する。
これにより、ユーザーは元の動作から始めて、連続的に大きな逸脱を許すだけでなく、ポリシーが悪化したり、振る舞いが慣れ親しんだ行動から遠すぎる場合にいつでも停止することができる。
- 参考スコア(独自算出の注目度): 3.1325640909772403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning algorithms still lack trust in practice due to
the risk that the learned policy performs worse than the original policy that
generated the dataset or behaves in an unexpected way that is unfamiliar to the
user. At the same time, offline RL algorithms are not able to tune their most
important hyperparameter - the proximity of the learned policy to the original
policy. We propose an algorithm that allows the user to tune this
hyperparameter at runtime, thereby overcoming both of the above mentioned
issues simultaneously. This allows users to start with the original behavior
and grant successively greater deviation, as well as stopping at any time when
the policy deteriorates or the behavior is too far from the familiar one.
- Abstract(参考訳): オフライン強化学習アルゴリズムは、データセットを生成したり、ユーザになじみのない予期せぬ方法で振る舞う元のポリシーよりも学習ポリシーが悪くなるリスクがあるため、実際には信頼を欠いている。
同時に、オフラインのRLアルゴリズムは、学習されたポリシーと元のポリシーに近い、最も重要なハイパーパラメータをチューニングできない。
本稿では,ユーザがこのハイパーパラメータを実行時にチューニングできるアルゴリズムを提案する。
これにより、ユーザは元の振る舞いから始めて、徐々に大きな偏差を許容し、ポリシーが悪化したり、慣れ親しんだ行動から遠ざかったりした時にいつでも停止することができる。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。