論文の概要: Discussion of Kallus (2020) and Mo, Qi, and Liu (2020): New Objectives
for Policy Learning
- arxiv url: http://arxiv.org/abs/2010.04805v1
- Date: Fri, 9 Oct 2020 21:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:49:19.320019
- Title: Discussion of Kallus (2020) and Mo, Qi, and Liu (2020): New Objectives
for Policy Learning
- Title(参考訳): Kallus (2020) と Mo, Qi, Liu (2020): 政策学習のための新しい目標
- Authors: Sijia Li, Xiudi Li, Alex Luedtke
- Abstract要約: フレームワーク内で作業する場合、バリュー関数を考慮に入れることが重要です。
分散ロバストなポリシを学習する際のデータ活用のための,より効率的なアプローチについて述べる。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discuss the thought-provoking new objective functions for policy learning
that were proposed in "More efficient policy learning via optimal retargeting"
by Nathan Kallus and "Learning optimal distributionally robust individualized
treatment rules" by Weibin Mo, Zhengling Qi, and Yufeng Liu. We show that it is
important to take the curvature of the value function into account when working
within the retargeting framework, and we introduce two ways to do so. We also
describe more efficient approaches for leveraging calibration data when
learning distributionally robust policies.
- Abstract(参考訳): 本稿では,Nathan Kallus の "More efficient policy learning via optimal retargeting" や Weibin Mo , Zhengling Qi , Yufeng Liu の "Learning optimal distributionally robust individualized treatment rules" で提案された政策学習のための新たな目的関数について論じる。
我々は、再ターゲティングフレームワーク内で作業する場合に、値関数の曲率を考慮に入れることが重要であることを示し、2つの方法を紹介する。
また、分散ロバストなポリシーを学ぶ際に、キャリブレーションデータを活用するためのより効率的なアプローチについても述べる。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Fairness in Preference-based Reinforcement Learning [2.3388338598125196]
そこで我々は,FPbRL (FPbRL) を設計した。
FPbRLの主な考え方は、新しい福祉ベースの嗜好を通じて、複数の目的に関連するベクトル報酬関数を学習することである。
実験により,FPbRLアプローチは効率とエクイティの両方を効果的かつ公正な政策で達成できることが示された。
論文 参考訳(メタデータ) (2023-06-16T17:47:36Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。