論文の概要: ICED: Zero-Shot Transfer in Reinforcement Learning via In-Context
Environment Design
- arxiv url: http://arxiv.org/abs/2402.03479v1
- Date: Mon, 5 Feb 2024 19:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:58:08.409947
- Title: ICED: Zero-Shot Transfer in Reinforcement Learning via In-Context
Environment Design
- Title(参考訳): ICED:環境設計による強化学習におけるゼロショット転送
- Authors: Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas,
Stefano V. Albrecht
- Abstract要約: 本研究では,RLエージェントのゼロショット一般化能力に,個々の環境インスタンスやレベルがどのような影響を及ぼすかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
次に、データ生成機構をより制御可能な、教師なし環境設計(UED)手法に注意を向ける。
- 参考スコア(独自算出の注目度): 12.79149059358717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents trained using deep reinforcement learning (RL) often lack
the ability to successfully generalise to new environments, even when they
share characteristics with the environments they have encountered during
training. In this work, we investigate how the sampling of individual
environment instances, or levels, affects the zero-shot generalisation (ZSG)
ability of RL agents. We discover that, for deep actor-critic architectures
sharing their base layers, prioritising levels according to their value loss
minimises the mutual information between the agent's internal representation
and the set of training levels in the generated training data. This provides a
novel theoretical justification for the implicit regularisation achieved by
certain adaptive sampling strategies. We then turn our attention to
unsupervised environment design (UED) methods, which have more control over the
data generation mechanism. We find that existing UED methods can significantly
shift the training distribution, which translates to low ZSG performance. To
prevent both overfitting and distributional shift, we introduce in-context
environment design (ICED). ICED generates levels using a variational
autoencoder trained over an initial set of level parameters, reducing
distributional shift, and achieves significant improvements in ZSG over
adaptive level sampling strategies and UED methods.
- Abstract(参考訳): 深層強化学習(rl)を用いて訓練された自律エージェントは、訓練中に遭遇した環境と特性を共有する場合でも、新しい環境にうまく一般化する能力に欠けることが多い。
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
我々は,基本層を共有するディープ・アクタ-クリティック・アーキテクチャにおいて,その価値損失に応じた優先順位付けレベルが,生成したトレーニングデータにおけるエージェントの内部表現とトレーニングレベルの相互情報を最小化することを発見した。
これは、特定の適応サンプリング戦略によって達成される暗黙の正則化に対する新しい理論的な正当化を与える。
次に,データ生成機構をより制御可能なued(unsupervised environment design)メソッドに注目します。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しく変化させることができる。
オーバーフィッティングと分散シフトの両立を防ぐために,コンテキスト内環境設計 (iced) を導入する。
ICEDは、初期レベルパラメータに基づいて訓練された変分オートエンコーダを用いてレベルを生成し、分散シフトを低減し、適応レベルサンプリング戦略やUEDメソッドよりもZSGを大幅に改善する。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - How the level sampling process impacts zero-shot generalisation in deep
reinforcement learning [12.79149059358717]
深い強化学習を通じて訓練された自律エージェントが広く採用されるのを防ぐ重要な制限は、新しい環境に一般化する能力の制限である。
本研究では,RLエージェントのゼロショット一般化能力に,個別環境インスタンスの非一様サンプリング戦略がどう影響するかを検討する。
論文 参考訳(メタデータ) (2023-10-05T12:08:12Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [13.013268095049236]
強化学習(Reinforcement Learning, RL)は、人工知能(Artificial General Intelligence, AGI)に繋がる重要な要素と考えられている。
しかしながら、RLはテスト環境と同じトレーニング環境を持つことでしばしば批判され、実世界でのRLの適用を妨げている。
この問題を解決するために、未知のテスト環境を含む可能性のある環境の組における最悪の性能を改善するために、分散ロバストRL(DRRL)を提案する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Replay-Guided Adversarial Environment Design [21.305857977725886]
完全にランダムなレベルを計算することで、PLRは効果的なトレーニングのために、新しく複雑なレベルを生成することができる、と我々は主張する。
我々は,新しい手法である PLR$perp$ が,アウト・オブ・ディストリビューション,ゼロショット転送タスクのスイートにおいて,より良い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T01:01:39Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。