論文の概要: Deep Surrogate Assisted Generation of Environments
- arxiv url: http://arxiv.org/abs/2206.04199v1
- Date: Thu, 9 Jun 2022 00:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 04:28:55.565144
- Title: Deep Surrogate Assisted Generation of Environments
- Title(参考訳): 深部サロゲートによる環境生成
- Authors: Varun Bhatt, Bryon Tjanaka, Matthew C. Fontaine, Stefanos Nikolaidis
- Abstract要約: 品質多様性(QD)最適化は環境生成アルゴリズムの有効成分であることが証明されている。
本稿では,サンプル効率のよいQD環境生成アルゴリズムであるDeep Surrogate Assisted Generation of Environments (DSAGE)を提案する。
2つのベンチマークドメインの結果、DSAGEは既存のQD環境生成アルゴリズムを大幅に上回っている。
- 参考スコア(独自算出の注目度): 7.217405582720078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in reinforcement learning (RL) has started producing
generally capable agents that can solve a distribution of complex environments.
These agents are typically tested on fixed, human-authored environments. On the
other hand, quality diversity (QD) optimization has been proven to be an
effective component of environment generation algorithms, which can generate
collections of high-quality environments that are diverse in the resulting
agent behaviors. However, these algorithms require potentially expensive
simulations of agents on newly generated environments. We propose Deep
Surrogate Assisted Generation of Environments (DSAGE), a sample-efficient QD
environment generation algorithm that maintains a deep surrogate model for
predicting agent behaviors in new environments. Results in two benchmark
domains show that DSAGE significantly outperforms existing QD environment
generation algorithms in discovering collections of environments that elicit
diverse behaviors of a state-of-the-art RL agent and a planning agent.
- Abstract(参考訳): 強化学習(RL)の最近の進歩は、複雑な環境の分布を解ける一般的な有能なエージェントを生み出し始めている。
これらのエージェントは通常、人間による固定された環境でテストされる。
一方、品質多様性(QD)最適化は、結果として生じるエージェントの挙動に多様性がある高品質環境のコレクションを生成することができる環境生成アルゴリズムの有効成分であることが証明されている。
しかし、これらのアルゴリズムは、新しく生成された環境におけるエージェントの潜在的に高価なシミュレーションを必要とする。
本研究では,新しい環境におけるエージェント行動予測のための深いサロゲートモデルを維持する,サンプル効率の良いqd環境生成アルゴリズムであるdeep surrogate assisted generation of environments (dsage)を提案する。
2つのベンチマークドメインの結果、DSAGEは最先端のRLエージェントと計画エージェントの多様な振る舞いを誘発する環境のコレクションを発見する際に、既存のQD環境生成アルゴリズムよりも大幅に優れていた。
関連論文リスト
- Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に対して堅牢な訓練エージェントは、深い強化学習において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Arbitrarily Scalable Environment Generators via Neural Cellular Automata [55.150593161240444]
NCA環境ジェネレータは, 環境サイズに関わらず, 整合性, 規則化されたパターンを維持可能であることを示す。
提案手法は,類似したパターンを持つ大規模環境に対して,単エージェント強化学習ポリシーを任意に拡張する。
論文 参考訳(メタデータ) (2023-10-28T07:30:09Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - INTAGS: Interactive Agent-Guided Simulation [4.04638613278729]
マルチエージェントシステム(MAS)を含む多くのアプリケーションでは、実稼働に先立って、実験的な(Exp)自律エージェントを高忠実度シミュレータでテストすることが必須である。
本稿では,ExpエージェントとBGエージェントのライブインタラクションによって評価される実システムと合成マルチエージェントシステムとを区別する指標を提案する。
InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-04T19:56:18Z) - Adversarial Reinforcement Learning for Procedural Content Generation [0.3779860024918729]
強化学習(RL)エージェントにおけるPCG(Procedural Content Generation)のアプローチと一般化の改善について述べる。
一般的なアプローチの一つは、訓練されたエージェントの一般化性を高めるために異なる環境を手続き的に生成することである。
ここでは、1つのPCG RLエージェントと1つの解決RLエージェントで対角モデルを展開する。
論文 参考訳(メタデータ) (2021-03-08T15:51:42Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。