Fugu-MT 論文翻訳(概要): ICED: Zero-Shot Transfer in Reinforcement Learning via In-Context Environment Design

論文の概要: ICED: Zero-Shot Transfer in Reinforcement Learning via In-Context Environment Design

arxiv url: http://arxiv.org/abs/2402.03479v1
Date: Mon, 5 Feb 2024 19:47:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 17:58:08.409947
Title: ICED: Zero-Shot Transfer in Reinforcement Learning via In-Context Environment Design
Title（参考訳）: ICED:環境設計による強化学習におけるゼロショット転送
Authors: Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas, Stefano V. Albrecht
Abstract要約: 本研究では,RLエージェントのゼロショット一般化能力に,個々の環境インスタンスやレベルがどのような影響を及ぼすかを検討する。基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。次に、データ生成機構をより制御可能な、教師なし環境設計(UED)手法に注意を向ける。
参考スコア（独自算出の注目度）: 12.79149059358717
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous agents trained using deep reinforcement learning (RL) often lack the ability to successfully generalise to new environments, even when they share characteristics with the environments they have encountered during training. In this work, we investigate how the sampling of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents. We discover that, for deep actor-critic architectures sharing their base layers, prioritising levels according to their value loss minimises the mutual information between the agent's internal representation and the set of training levels in the generated training data. This provides a novel theoretical justification for the implicit regularisation achieved by certain adaptive sampling strategies. We then turn our attention to unsupervised environment design (UED) methods, which have more control over the data generation mechanism. We find that existing UED methods can significantly shift the training distribution, which translates to low ZSG performance. To prevent both overfitting and distributional shift, we introduce in-context environment design (ICED). ICED generates levels using a variational autoencoder trained over an initial set of level parameters, reducing distributional shift, and achieves significant improvements in ZSG over adaptive level sampling strategies and UED methods.
Abstract（参考訳）: 深層強化学習(rl)を用いて訓練された自律エージェントは、訓練中に遭遇した環境と特性を共有する場合でも、新しい環境にうまく一般化する能力に欠けることが多い。本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。我々は,基本層を共有するディープ・アクタ-クリティック・アーキテクチャにおいて,その価値損失に応じた優先順位付けレベルが,生成したトレーニングデータにおけるエージェントの内部表現とトレーニングレベルの相互情報を最小化することを発見した。これは、特定の適応サンプリング戦略によって達成される暗黙の正則化に対する新しい理論的な正当化を与える。次に,データ生成機構をより制御可能なued(unsupervised environment design)メソッドに注目します。既存のUED手法は,ZSG性能の低いトレーニング分布を著しく変化させることができる。オーバーフィッティングと分散シフトの両立を防ぐために,コンテキスト内環境設計 (iced) を導入する。 ICEDは、初期レベルパラメータに基づいて訓練された変分オートエンコーダを用いてレベルを生成し、分散シフトを低減し、適応レベルサンプリング戦略やUEDメソッドよりもZSGを大幅に改善する。

関連論文リスト

Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文参考訳（メタデータ） (2024-07-30T08:48:49Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
How the level sampling process impacts zero-shot generalisation in deep reinforcement learning [12.79149059358717]
深い強化学習を通じて訓練された自律エージェントが広く採用されるのを防ぐ重要な制限は、新しい環境に一般化する能力の制限である。本研究では,RLエージェントのゼロショット一般化能力に,個別環境インスタンスの非一様サンプリング戦略がどう影響するかを検討する。
論文参考訳（メタデータ） (2023-10-05T12:08:12Z)
GIFD: A Generative Gradient Inversion Method with Feature Domain Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。 textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文参考訳（メタデータ） (2023-08-09T04:34:21Z)
Divide and Contrast: Source-free Domain Adaptation via Adaptive Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。 DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文参考訳（メタデータ） (2022-11-12T09:21:49Z)
Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文参考訳（メタデータ） (2022-07-11T22:45:29Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2021-11-12T18:13:45Z)
Gated Information Bottleneck for Generalization in Sequential Environments [13.795129636387623]
深層ニューラルネットワークは、基礎となるデータ分布がトレーニングセットのそれと異なる場合、一般化が悪く、目に見えない環境に苦しむ。ゲート情報ボトルネック(GIB)と呼ばれるニューラルネットワークに基づく新しいISBアプローチを提案する。我々は、敵対的ロバスト性およびアウト・オブ・ディストリビューション検出において、他の一般的なニューラルネットワークベースのIBアプローチよりもGIBの方が優れていることを実証的に示す。
論文参考訳（メタデータ） (2021-10-12T14:58:38Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。