論文の概要: Adversarial Reinforcement Learning for Procedural Content Generation
- arxiv url: http://arxiv.org/abs/2103.04847v1
- Date: Mon, 8 Mar 2021 15:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:59:04.494788
- Title: Adversarial Reinforcement Learning for Procedural Content Generation
- Title(参考訳): 手続き的コンテンツ生成のためのadversarial reinforcement learning
- Authors: Linus Gissl\'en, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad
Tollmar
- Abstract要約: 強化学習(RL)エージェントにおけるPCG(Procedural Content Generation)のアプローチと一般化の改善について述べる。
一般的なアプローチの一つは、訓練されたエージェントの一般化性を高めるために異なる環境を手続き的に生成することである。
ここでは、1つのPCG RLエージェントと1つの解決RLエージェントで対角モデルを展開する。
- 参考スコア(独自算出の注目度): 0.3779860024918729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach for procedural content generation (PCG), and improving
generalization in reinforcement learning (RL) agents, by using adversarial deep
RL. Training RL agents for generalization over novel environments is a
notoriously difficult task. One popular approach is to procedurally generate
different environments to increase the generalizability of the trained agents.
Here we deploy an adversarial model with one PCG RL agent (called Generator),
and one solving RL agent (called Solver). The benefit is mainly two-fold:
Firstly, the Solver achieves better generalization through the generated
challenges from the Generator. Secondly, the trained Generator can be used as a
creator of novel environments that, together with the Solver, can be shown to
be solvable. The Generator receives a reward signal based on the performance of
the Solver which encourages the environment design to be challenging but not
impossible. To further drive diversity and control of the environment
generation, we propose the use of auxiliary inputs for the Generator. Thus, we
propose adversarial RL for procedural content generation (ARLPCG), an
adversarial approach which procedurally generates previously unseen
environments with an auxiliary input as a control variable. Herein we describe
this concept in detail and compare it with previous methods showing improved
generalization, as well as a new method to create novel environments.
- Abstract(参考訳): 本稿では,PCG(Procedural Content Generation)のアプローチを提案し,対向深度RLを用いて強化学習(Regress Learning, RL)エージェントの一般化を改善する。
新規環境に対する一般化のためのRLエージェントの訓練は、非常に難しい課題である。
一般的なアプローチの一つは、訓練されたエージェントの一般化性を高めるために異なる環境を手続き的に生成することである。
ここでは、1つのPCG RLエージェント(ジェネレータと呼ばれる)と1つの解決RLエージェント(ソルバーと呼ばれる)で敵対モデルを展開する。
第一に、ソルバーはジェネレータから生成された課題を通じてより良い一般化を実現します。
第二に、訓練されたジェネレータは、Solverとともに解決可能であることを示す新しい環境の創造者として使用することができる。
生成器は、環境設計が困難であるが不可能ではないことを奨励するソルバの性能に基づく報奨信号を受信する。
環境発生の多様性と制御をさらに推進するために、発電機の補助入力の使用を提案します。
そこで,本研究では,補助入力を制御変数として,既知環境を手続き的に生成する,手続き的コンテンツ生成(arlpcg)のための逆rlを提案する。
本稿では,この概念を,改良された一般化を示す従来の手法と比較し,新しい環境を創り出す新しい手法について述べる。
関連論文リスト
- Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に頑健な訓練エージェントは、深層強化学習(RL)において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - CCA: Collaborative Competitive Agents for Image Editing [59.54347952062684]
本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。
複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。
この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
論文 参考訳(メタデータ) (2024-01-23T11:46:28Z) - Controlling the Latent Space of GANs through Reinforcement Learning: A
Case Study on Task-based Image-to-Image Translation [5.881800919492065]
GAN(Generative Adversarial Networks)は、トレーニングデータセットに基づいたリアルなアウトプットを生成する、恐ろしいAIツールとして登場した。
我々は、強化学習(RL)エージェントと潜時空間GAN(l-GAN)を統合することでこの問題に対処する新しい手法を提案する。
我々は,l-GANの潜伏空間をナビゲートする習熟度を確保するために,厳密に設計された報酬ポリシーを備えたアクタ批判的RLエージェントを開発した。
論文 参考訳(メタデータ) (2023-07-26T06:34:24Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Deep Surrogate Assisted Generation of Environments [7.217405582720078]
品質多様性(QD)最適化は環境生成アルゴリズムの有効成分であることが証明されている。
本稿では,サンプル効率のよいQD環境生成アルゴリズムであるDeep Surrogate Assisted Generation of Environments (DSAGE)を提案する。
2つのベンチマークドメインの結果、DSAGEは既存のQD環境生成アルゴリズムを大幅に上回っている。
論文 参考訳(メタデータ) (2022-06-09T00:14:03Z) - A Game-Theoretic Approach for Improving Generalization Ability of TSP
Solvers [16.98434288039677]
トレーニング可能なEmphrとemphData Generatorの間に2つのプレイヤーゼロサムフレームワークを導入する。
本稿では,トラベリングセールスマン問題におけるタスクにおいて,最も一般化可能なパフォーマンスを実現するためのフレームワークについて述べる。
論文 参考訳(メタデータ) (2021-10-28T13:35:22Z) - Controllable and Compositional Generation with Latent-Space Energy-Based
Models [60.87740144816278]
制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-21T03:31:45Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。