論文の概要: Transfer Reinforcement Learning under Unobserved Contextual Information
- arxiv url: http://arxiv.org/abs/2003.04427v1
- Date: Mon, 9 Mar 2020 22:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 07:39:16.635705
- Title: Transfer Reinforcement Learning under Unobserved Contextual Information
- Title(参考訳): 非観測文脈情報に基づく伝達強化学習
- Authors: Yan Zhang and Michael M. Zavlanos
- Abstract要約: 本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 16.895704973433382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a transfer reinforcement learning problem where the
state transitions and rewards are affected by the environmental context.
Specifically, we consider a demonstrator agent that has access to a
context-aware policy and can generate transition and reward data based on that
policy. These data constitute the experience of the demonstrator. Then, the
goal is to transfer this experience, excluding the underlying contextual
information, to a learner agent that does not have access to the environmental
context, so that they can learn a control policy using fewer samples. It is
well known that, disregarding the causal effect of the contextual information,
can introduce bias in the transition and reward models estimated by the
learner, resulting in a learned suboptimal policy. To address this challenge,
in this paper, we develop a method to obtain causal bounds on the transition
and reward functions using the demonstrator's data, which we then use to obtain
causal bounds on the value functions. Using these value function bounds, we
propose new Q learning and UCB-Q learning algorithms that converge to the true
value function without bias. We provide numerical experiments for robot motion
planning problems that validate the proposed value function bounds and
demonstrate that the proposed algorithms can effectively make use of the data
from the demonstrator to accelerate the learning process of the learner.
- Abstract(参考訳): 本稿では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
具体的には、コンテキスト対応ポリシーにアクセスでき、そのポリシーに基づいて遷移データと報酬データを生成するデモンストレータエージェントを検討する。
これらのデータはデモ参加者の経験を構成する。
そして、この体験を、基礎となる文脈情報を除いて、環境コンテキストにアクセスできない学習者エージェントに転送し、少ないサンプルを用いて制御ポリシーを学習できるようにすることが目的である。
文脈情報の因果的影響を無視して、学習者が見積もる遷移モデルと報奨モデルにバイアスを生じさせ、学習した準最適政策をもたらすことはよく知られている。
この課題に対処するため,本稿では,デモンストレータのデータを用いて遷移関数と報酬関数の因果境界を求める手法を開発し,それを用いて値関数の因果境界を求める。
これらの値関数境界を用いて、バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
本稿では,提案する値関数境界を検証したロボット動作計画問題の数値実験を行い,提案アルゴリズムが実証者からのデータを効果的に利用して学習者の学習プロセスを高速化できることを実証する。
関連論文リスト
- Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - A Bayesian Approach to (Online) Transfer Learning: Theory and Algorithms [6.193838300896449]
本稿では,パラメトリック統計モデルを用いたベイズ的観点からの移動学習について検討する。
具体的には,移動学習問題,即時学習,オンライン学習,時変学習の3つの変種について検討する。
各問題に対して、適切な目的関数を定義し、学習性能の正確な表現または上限を提供する。
例は、小さなサンプルサイズであっても、導出した境界が正確であることを示している。
論文 参考訳(メタデータ) (2021-09-03T08:43:29Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。