論文の概要: How Ensembles of Distilled Policies Improve Generalisation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.16581v1
- Date: Thu, 22 May 2025 12:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.274131
- Title: How Ensembles of Distilled Policies Improve Generalisation in Reinforcement Learning
- Title(参考訳): 強化学習の一般化をめざした蒸留政策の展開
- Authors: Max Weltevrede, Moritz A. Zanger, Matthijs T. J. Spaan, Wendelin Böhmer,
- Abstract要約: 強化学習の目標は、エージェントを一定の訓練環境上で訓練し、類似の、しかし目に見えない、テスト環境に一般化できるようにすることである。
以前の研究は、訓練後の政策蒸留が、テスト環境でのオリジナルよりも優れたポリシーを創出できることを示した。
- 参考スコア(独自算出の注目度): 5.624791703748109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the zero-shot policy transfer setting in reinforcement learning, the goal is to train an agent on a fixed set of training environments so that it can generalise to similar, but unseen, testing environments. Previous work has shown that policy distillation after training can sometimes produce a policy that outperforms the original in the testing environments. However, it is not yet entirely clear why that is, or what data should be used to distil the policy. In this paper, we prove, under certain assumptions, a generalisation bound for policy distillation after training. The theory provides two practical insights: for improved generalisation, you should 1) train an ensemble of distilled policies, and 2) distil it on as much data from the training environments as possible. We empirically verify that these insights hold in more general settings, when the assumptions required for the theory no longer hold. Finally, we demonstrate that an ensemble of policies distilled on a diverse dataset can generalise significantly better than the original agent.
- Abstract(参考訳): 強化学習におけるゼロショットの方針伝達設定では、エージェントを一定の訓練環境上で訓練し、類似の、しかし目に見えない、テスト環境に一般化できるようにすることが目標である。
以前の研究は、訓練後の政策蒸留が、テスト環境でのオリジナルよりも優れたポリシーを創出できることを示した。
しかし、それがなぜなのか、あるいはポリシーを廃止するためにどんなデータを使うべきかは、まだ明らかになっていない。
本稿では, ある仮定の下で, 訓練後の政策蒸留の一般化を実証する。
この理論は2つの実践的な洞察を与える: 一般化を改善するためには、あなたはすべきである。
1)蒸留政策の合奏を訓練し、
2)トレーニング環境から可能な限り多くのデータを消耗する。
理論に必要な仮定がもはや成り立たないとき、これらの洞察がより一般的な設定で成り立つことを実証的に検証する。
最後に、多様なデータセット上で蒸留されたポリシーの集合が、元のエージェントよりも大幅に一般化できることを実証する。
関連論文リスト
- Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence [53.51724434972605]
本稿では,テスト環境に障害がある場合の一般化ギャップに寄与する要因について理論的に考察する。
我々の理論は、人間の直観に沿う訓練環境とテスト環境の表現距離を最小化することが、一般化のギャップを減らすことの利点として最も重要であることを示唆している。
論文 参考訳(メタデータ) (2024-02-05T03:27:52Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - Effect-Invariant Mechanisms for Policy Generalization [3.701112941066256]
不変条件分布を利用して、目に見えない環境をより一般化するモデルを学ぶことが提案されている。
効果不変性(英語版)と呼ばれる完全な不変性の緩和を導入し、ゼロショットポリシーの一般化には適切な仮定の下で十分であることを示す。
シミュレーションデータと移動体保健介入データセットを用いて実験結果を提示し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-06-19T14:50:24Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Policy Adaptation from Foundation Model Feedback [31.5870515250885]
視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。
事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。
本研究では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。
PAFFはすべてのケースにおいて大きなマージンでベースラインを改善することを示す。
論文 参考訳(メタデータ) (2022-12-14T18:31:47Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - IV-Posterior: Inverse Value Estimation for Interpretable Policy
Certificates [5.650921610324044]
ポリシーの解釈性の欠如は、下流アプリケーションでのデプロイメントの成功を妨げる可能性がある。
本稿では,解釈可能な政策証明書(IV-Posterior)の逆値推定法を提案する。
政策選択がこれらの政策が持つ帰納的バイアスの知識を取り入れた場合、かなりの性能向上が得られることを示す。
論文 参考訳(メタデータ) (2020-11-30T21:45:49Z) - Counterfactual Policy Evaluation for Decision-Making in Autonomous
Driving [3.1410342959104725]
強化や模倣学習のような学習に基づくアプローチは、自動運転のための意思決定において人気を集めている。
本研究では, 対実的世界を活用した対実的政策評価を導入する。
提案手法は高い成功率を維持しながら衝突速度を著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-03-20T10:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。