論文の概要: Knowledge Transfer from Teachers to Learners in Growing-Batch
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.03870v2
- Date: Tue, 9 May 2023 22:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:12:27.645755
- Title: Knowledge Transfer from Teachers to Learners in Growing-Batch
Reinforcement Learning
- Title(参考訳): 強化学習における教師から学習者への知識伝達
- Authors: Patrick Emedom-Nnamdi, Abram L. Friesen, Bobak Shahriari, Nando de
Freitas, Matt W. Hoffman
- Abstract要約: 現実世界のドメインにおける制御ポリシーは、通常、以前にログされたデータからオフラインまたは成長バッチ形式でトレーニングされる。
この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。
このようなサイクルの限られた数は、現実世界のドメインでは実現可能であるが、結果として得られるデータの質と多様性は、標準の継続的な相互作用アプローチよりもはるかに低い。
- 参考スコア(独自算出の注目度): 8.665235113831685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard approaches to sequential decision-making exploit an agent's ability
to continually interact with its environment and improve its control policy.
However, due to safety, ethical, and practicality constraints, this type of
trial-and-error experimentation is often infeasible in many real-world domains
such as healthcare and robotics. Instead, control policies in these domains are
typically trained offline from previously logged data or in a growing-batch
manner. In this setting a fixed policy is deployed to the environment and used
to gather an entire batch of new data before being aggregated with past batches
and used to update the policy. This improvement cycle can then be repeated
multiple times. While a limited number of such cycles is feasible in real-world
domains, the quality and diversity of the resulting data are much lower than in
the standard continually-interacting approach. However, data collection in
these domains is often performed in conjunction with human experts, who are
able to label or annotate the collected data. In this paper, we first explore
the trade-offs present in this growing-batch setting, and then investigate how
information provided by a teacher (i.e., demonstrations, expert actions, and
gradient information) can be leveraged at training time to mitigate the sample
complexity and coverage requirements for actor-critic methods. We validate our
contributions on tasks from the DeepMind Control Suite.
- Abstract(参考訳): シーケンシャルな意思決定に対する標準的なアプローチは、エージェントが環境と継続的に対話し、コントロールポリシーを改善する能力を利用する。
しかし、安全、倫理、実用性の制約のため、この種の試行錯誤実験は医療やロボティクスといった現実世界の多くの領域で実施できないことが多い。
代わりに、これらのドメインの制御ポリシーは、通常、以前ログしたデータからオフラインでトレーニングされる。
この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。
この改善サイクルを複数回繰り返すことができる。
このようなサイクルの限られた数が現実のドメインで実現可能であるが、結果として得られるデータの品質と多様性は、標準的な継続的な相互作用アプローチよりもはるかに低い。
しかしながら、これらの領域のデータ収集は、収集したデータのラベル付けや注釈付けが可能な人間の専門家と共同で行われることが多い。
本稿では,まず,この成長段階におけるトレードオフを調査し,教師が提供する情報(デモ,エキスパートアクション,グラデーション情報など)をトレーニング時に活用し,アクタ-批判的手法のサンプル複雑性やカバレッジ要件を緩和する方法について検討する。
DeepMind Control Suiteのタスクに対するコントリビューションを検証する。
関連論文リスト
- Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Where is the Truth? The Risk of Getting Confounded in a Continual World [21.862370510786004]
データセットは、新たなデータへの一般化に失敗する急激な相関によって、最も容易に解決される場合、構築される。
共同創設者がタスク間で時間的に異なるような継続的な学習環境では、共同創設者の効果を緩和するという課題は、標準的な忘れる問題よりもはるかに多い。
論文 参考訳(メタデータ) (2024-02-09T14:24:18Z) - Generative appearance replay for continual unsupervised domain
adaptation [4.623578780480946]
GarDAは生成再生に基づくアプローチで、セグメンテーションモデルをラベルのない新しいドメインに順次適用することができる。
臓器とモダリティの異なる2つのデータセット上でGarDAを評価する。
論文 参考訳(メタデータ) (2023-01-03T17:04:05Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Keep Doing What Worked: Behavioral Modelling Priors for Offline
Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。
標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文 参考訳(メタデータ) (2020-02-19T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。