論文の概要: Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.03833v1
- Date: Mon, 7 Jun 2021 17:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:38:28.349115
- Title: Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning
- Title(参考訳): 知識のない学習: 継続的伝達強化学習における観察されていない文脈
- Authors: Chenyu Liu, Yan Zhang, Yi Shen and Michael M. Zavlanos
- Abstract要約: 連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
- 参考スコア(独自算出の注目度): 16.814772057210366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a transfer Reinforcement Learning (RL) problem in
continuous state and action spaces, under unobserved contextual information.
For example, the context can represent the mental view of the world that an
expert agent has formed through past interactions with this world. We assume
that this context is not accessible to a learner agent who can only observe the
expert data. Then, our goal is to use the context-aware expert data to learn an
optimal context-unaware policy for the learner using only a few new data
samples. Such problems are typically solved using imitation learning that
assumes that both the expert and learner agents have access to the same
information. However, if the learner does not know the expert context, using
the expert data alone will result in a biased learner policy and will require
many new data samples to improve. To address this challenge, in this paper, we
formulate the learning problem as a causal bound-constrained Multi-Armed-Bandit
(MAB) problem. The arms of this MAB correspond to a set of basis policy
functions that can be initialized in an unsupervised way using the expert data
and represent the different expert behaviors affected by the unobserved
context. On the other hand, the MAB constraints correspond to causal bounds on
the accumulated rewards of these basis policy functions that we also compute
from the expert data. The solution to this MAB allows the learner agent to
select the best basis policy and improve it online. And the use of causal
bounds reduces the exploration variance and, therefore, improves the learning
rate. We provide numerical experiments on an autonomous driving example that
show that our proposed transfer RL method improves the learner's policy faster
compared to existing imitation learning methods and enjoys much lower variance
during training.
- Abstract(参考訳): 本稿では,連続状態と行動空間における伝達強化学習(RL)問題について,観測不能な文脈情報に基づいて考察する。
例えば、コンテキストは、この世界との過去の相互作用を通じて、専門家エージェントが形成した世界のメンタルビューを表現することができる。
このコンテキストは、専門家データのみを観察できる学習者エージェントにはアクセスできないと仮定する。
次に,新しいデータサンプルのみを使用して,学習者の最適な文脈認識ポリシーを学ぶことを目的とする。
このような問題は、専門家と学習者の両方が同じ情報にアクセスできることを前提に、模倣学習を用いて解決される。
しかし、学習者が専門家の文脈を知らない場合、専門家のデータのみを使用することでバイアスのある学習者ポリシーが生まれ、多くの新しいデータサンプルが必要とされる。
本稿では,この課題に対処するために,学習問題を因果境界制約マルチアームバンド(mab)問題として定式化する。
このMABの紋章は、専門家データを用いて教師なしの方法で初期化でき、観測されていない文脈で影響を受ける異なる専門家の振る舞いを表現できる一連の基本ポリシー機能に対応する。
一方、MAB制約は、専門家データから計算したこれらの基本方針関数の累積報酬の因果境界に対応する。
このMABの解決策により、学習者は最良の基本方針を選択し、オンラインで改善することができる。
そして因果境界を用いることで、探索のばらつきが減少し、学習率が向上する。
提案手法は,既存の模倣学習法に比べて学習者の方針を高速に改善し,訓練中の分散度がはるかに低いことを示す自律運転例について数値実験を行った。
関連論文リスト
- Knowledge Transfer from Teachers to Learners in Growing-Batch
Reinforcement Learning [8.665235113831685]
現実世界のドメインにおける制御ポリシーは、通常、以前にログされたデータからオフラインまたは成長バッチ形式でトレーニングされる。
この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。
このようなサイクルの限られた数は、現実世界のドメインでは実現可能であるが、結果として得られるデータの質と多様性は、標準の継続的な相互作用アプローチよりもはるかに低い。
論文 参考訳(メタデータ) (2023-05-05T22:55:34Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Transfer Reinforcement Learning under Unobserved Contextual Information [16.895704973433382]
本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-09T22:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。