Fugu-MT 論文翻訳(概要): Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning

論文の概要: Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.03870v2
Date: Tue, 9 May 2023 22:25:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 16:12:27.645755
Title: Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning
Title（参考訳）: 強化学習における教師から学習者への知識伝達
Authors: Patrick Emedom-Nnamdi, Abram L. Friesen, Bobak Shahriari, Nando de Freitas, Matt W. Hoffman
Abstract要約: 現実世界のドメインにおける制御ポリシーは、通常、以前にログされたデータからオフラインまたは成長バッチ形式でトレーニングされる。この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。このようなサイクルの限られた数は、現実世界のドメインでは実現可能であるが、結果として得られるデータの質と多様性は、標準の継続的な相互作用アプローチよりもはるかに低い。
参考スコア（独自算出の注目度）: 8.665235113831685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standard approaches to sequential decision-making exploit an agent's ability to continually interact with its environment and improve its control policy. However, due to safety, ethical, and practicality constraints, this type of trial-and-error experimentation is often infeasible in many real-world domains such as healthcare and robotics. Instead, control policies in these domains are typically trained offline from previously logged data or in a growing-batch manner. In this setting a fixed policy is deployed to the environment and used to gather an entire batch of new data before being aggregated with past batches and used to update the policy. This improvement cycle can then be repeated multiple times. While a limited number of such cycles is feasible in real-world domains, the quality and diversity of the resulting data are much lower than in the standard continually-interacting approach. However, data collection in these domains is often performed in conjunction with human experts, who are able to label or annotate the collected data. In this paper, we first explore the trade-offs present in this growing-batch setting, and then investigate how information provided by a teacher (i.e., demonstrations, expert actions, and gradient information) can be leveraged at training time to mitigate the sample complexity and coverage requirements for actor-critic methods. We validate our contributions on tasks from the DeepMind Control Suite.
Abstract（参考訳）: シーケンシャルな意思決定に対する標準的なアプローチは、エージェントが環境と継続的に対話し、コントロールポリシーを改善する能力を利用する。しかし、安全、倫理、実用性の制約のため、この種の試行錯誤実験は医療やロボティクスといった現実世界の多くの領域で実施できないことが多い。代わりに、これらのドメインの制御ポリシーは、通常、以前ログしたデータからオフラインでトレーニングされる。この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。この改善サイクルを複数回繰り返すことができる。このようなサイクルの限られた数が現実のドメインで実現可能であるが、結果として得られるデータの品質と多様性は、標準的な継続的な相互作用アプローチよりもはるかに低い。しかしながら、これらの領域のデータ収集は、収集したデータのラベル付けや注釈付けが可能な人間の専門家と共同で行われることが多い。本稿では,まず,この成長段階におけるトレードオフを調査し,教師が提供する情報(デモ,エキスパートアクション,グラデーション情報など)をトレーニング時に活用し,アクタ-批判的手法のサンプル複雑性やカバレッジ要件を緩和する方法について検討する。 DeepMind Control Suiteのタスクに対するコントリビューションを検証する。

関連論文リスト

Meta-Learning Transformers to Improve In-Context Generalization [8.694999451321571]
インコンテキスト学習は、入力プロンプトのみに基づいて、トランスフォーマーモデルを新しいタスクに一般化することを可能にする。既存のトレーニングパラダイムは一般的に、保存にコストがかかる大規模で非構造的なデータセットに依存します。我々は、複数の、小規模、ドメイン固有のデータセットのコレクションを活用する、代替的なトレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-07-07T14:02:22Z)
Generate to Discriminate: Expert Routing for Continual Learning [59.71853576559306]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文参考訳（メタデータ） (2024-12-22T13:16:28Z)
Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文参考訳（メタデータ） (2024-11-14T11:10:36Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Where is the Truth? The Risk of Getting Confounded in a Continual World [21.862370510786004]
データセットは、新たなデータへの一般化に失敗する急激な相関によって、最も容易に解決される場合、構築される。共同創設者がタスク間で時間的に異なるような継続的な学習環境では、共同創設者の効果を緩和するという課題は、標準的な忘れる問題よりもはるかに多い。
論文参考訳（メタデータ） (2024-02-09T14:24:18Z)
Generative appearance replay for continual unsupervised domain adaptation [4.623578780480946]
GarDAは生成再生に基づくアプローチで、セグメンテーションモデルをラベルのない新しいドメインに順次適用することができる。臓器とモダリティの異なる2つのデータセット上でGarDAを評価する。
論文参考訳（メタデータ） (2023-01-03T17:04:05Z)
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文参考訳（メタデータ） (2022-11-20T21:57:10Z)
Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文参考訳（メタデータ） (2022-05-23T16:37:16Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Learning without Knowing: Unobserved Context in Continuous Transfer Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文参考訳（メタデータ） (2021-06-07T17:49:22Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)
Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文参考訳（メタデータ） (2020-02-19T19:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。