Fugu-MT 論文翻訳(概要): DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design

論文の概要: DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design

arxiv url: http://arxiv.org/abs/2402.03479v3
Date: Wed, 5 Jun 2024 14:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 03:25:10.400596
Title: DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design
Title（参考訳）: DRED:データ調整環境設計による強化学習におけるゼロショット転送
Authors: Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas, Stefano V. Albrecht,
Abstract要約: 本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
参考スコア（独自算出の注目度）: 11.922951794283168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous agents trained using deep reinforcement learning (RL) often lack the ability to successfully generalise to new environments, even when these environments share characteristics with the ones they have encountered during training. In this work, we investigate how the sampling of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents. We discover that, for deep actor-critic architectures sharing their base layers, prioritising levels according to their value loss minimises the mutual information between the agent's internal representation and the set of training levels in the generated training data. This provides a novel theoretical justification for the regularisation achieved by certain adaptive sampling strategies. We then turn our attention to unsupervised environment design (UED) methods, which assume control over level generation. We find that existing UED methods can significantly shift the training distribution, which translates to low ZSG performance. To prevent both overfitting and distributional shift, we introduce data-regularised environment design (DRED). DRED generates levels using a generative model trained to approximate the ground truth distribution of an initial set of level parameters. Through its grounding, DRED achieves significant improvements in ZSG over adaptive level sampling strategies and UED methods. Our code and experimental data are available at https://github.com/uoe-agents/dred.
Abstract（参考訳）: 深層強化学習(RL)を用いて訓練された自律エージェントは、トレーニング中に遭遇したものと特性を共有した場合でも、新しい環境にうまく一般化する能力に欠けることが多い。本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。これは、特定の適応サンプリング戦略によって達成される正規化に対する新しい理論的な正当化を与える。次に、レベル生成の制御を前提とした、教師なし環境設計(UED)手法に注意を向ける。既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。オーバーフィッティングと分散シフトの両方を防止するため,データ正規化環境設計(DRED)を導入する。 DREDは、初期レベルパラメータの基底真理分布を近似するために訓練された生成モデルを用いてレベルを生成する。 DREDは、その基盤として、適応レベルサンプリング戦略とUEDメソッドよりも、ZSGの大幅な改善を実現している。私たちのコードと実験データはhttps://github.com/uoe-agents/dred.comで公開されています。

関連論文リスト

Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文参考訳（メタデータ） (2024-07-30T08:48:49Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
How the level sampling process impacts zero-shot generalisation in deep reinforcement learning [12.79149059358717]
深い強化学習を通じて訓練された自律エージェントが広く採用されるのを防ぐ重要な制限は、新しい環境に一般化する能力の制限である。本研究では,RLエージェントのゼロショット一般化能力に,個別環境インスタンスの非一様サンプリング戦略がどう影響するかを検討する。
論文参考訳（メタデータ） (2023-10-05T12:08:12Z)
GIFD: A Generative Gradient Inversion Method with Feature Domain Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。 textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文参考訳（メタデータ） (2023-08-09T04:34:21Z)
Divide and Contrast: Source-free Domain Adaptation via Adaptive Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。 DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文参考訳（メタデータ） (2022-11-12T09:21:49Z)
Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文参考訳（メタデータ） (2022-07-11T22:45:29Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2021-11-12T18:13:45Z)
Gated Information Bottleneck for Generalization in Sequential Environments [13.795129636387623]
深層ニューラルネットワークは、基礎となるデータ分布がトレーニングセットのそれと異なる場合、一般化が悪く、目に見えない環境に苦しむ。ゲート情報ボトルネック(GIB)と呼ばれるニューラルネットワークに基づく新しいISBアプローチを提案する。我々は、敵対的ロバスト性およびアウト・オブ・ディストリビューション検出において、他の一般的なニューラルネットワークベースのIBアプローチよりもGIBの方が優れていることを実証的に示す。
論文参考訳（メタデータ） (2021-10-12T14:58:38Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。