論文の概要: Knowledge Transfer from Teachers to Learners in Growing-Batch
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.03870v2
- Date: Tue, 9 May 2023 22:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:12:27.645755
- Title: Knowledge Transfer from Teachers to Learners in Growing-Batch
Reinforcement Learning
- Title(参考訳): 強化学習における教師から学習者への知識伝達
- Authors: Patrick Emedom-Nnamdi, Abram L. Friesen, Bobak Shahriari, Nando de
Freitas, Matt W. Hoffman
- Abstract要約: 現実世界のドメインにおける制御ポリシーは、通常、以前にログされたデータからオフラインまたは成長バッチ形式でトレーニングされる。
この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。
このようなサイクルの限られた数は、現実世界のドメインでは実現可能であるが、結果として得られるデータの質と多様性は、標準の継続的な相互作用アプローチよりもはるかに低い。
- 参考スコア(独自算出の注目度): 8.665235113831685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard approaches to sequential decision-making exploit an agent's ability
to continually interact with its environment and improve its control policy.
However, due to safety, ethical, and practicality constraints, this type of
trial-and-error experimentation is often infeasible in many real-world domains
such as healthcare and robotics. Instead, control policies in these domains are
typically trained offline from previously logged data or in a growing-batch
manner. In this setting a fixed policy is deployed to the environment and used
to gather an entire batch of new data before being aggregated with past batches
and used to update the policy. This improvement cycle can then be repeated
multiple times. While a limited number of such cycles is feasible in real-world
domains, the quality and diversity of the resulting data are much lower than in
the standard continually-interacting approach. However, data collection in
these domains is often performed in conjunction with human experts, who are
able to label or annotate the collected data. In this paper, we first explore
the trade-offs present in this growing-batch setting, and then investigate how
information provided by a teacher (i.e., demonstrations, expert actions, and
gradient information) can be leveraged at training time to mitigate the sample
complexity and coverage requirements for actor-critic methods. We validate our
contributions on tasks from the DeepMind Control Suite.
- Abstract(参考訳): シーケンシャルな意思決定に対する標準的なアプローチは、エージェントが環境と継続的に対話し、コントロールポリシーを改善する能力を利用する。
しかし、安全、倫理、実用性の制約のため、この種の試行錯誤実験は医療やロボティクスといった現実世界の多くの領域で実施できないことが多い。
代わりに、これらのドメインの制御ポリシーは、通常、以前ログしたデータからオフラインでトレーニングされる。
この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。
この改善サイクルを複数回繰り返すことができる。
このようなサイクルの限られた数が現実のドメインで実現可能であるが、結果として得られるデータの品質と多様性は、標準的な継続的な相互作用アプローチよりもはるかに低い。
しかしながら、これらの領域のデータ収集は、収集したデータのラベル付けや注釈付けが可能な人間の専門家と共同で行われることが多い。
本稿では,まず,この成長段階におけるトレードオフを調査し,教師が提供する情報(デモ,エキスパートアクション,グラデーション情報など)をトレーニング時に活用し,アクタ-批判的手法のサンプル複雑性やカバレッジ要件を緩和する方法について検討する。
DeepMind Control Suiteのタスクに対するコントリビューションを検証する。
関連論文リスト
- Masked Autoencoders are Efficient Continual Federated Learners [15.935694355056073]
継続的な学習は、クライアント間で共有される表現の教師なしの学習に基礎を置くべきです。
分布推定のためのマスク付きオートエンコーダはこの設定に特に適している。
論文 参考訳(メタデータ) (2023-06-06T09:38:57Z) - Generative appearance replay for continual unsupervised domain
adaptation [4.623578780480946]
GarDAは生成再生に基づくアプローチで、セグメンテーションモデルをラベルのない新しいドメインに順次適用することができる。
臓器とモダリティの異なる2つのデータセット上でGarDAを評価する。
論文 参考訳(メタデータ) (2023-01-03T17:04:05Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Keep Doing What Worked: Behavioral Modelling Priors for Offline
Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。
標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文 参考訳(メタデータ) (2020-02-19T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。