論文の概要: LLM-POET: Evolving Complex Environments using Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04663v1
- Date: Fri, 7 Jun 2024 06:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:19:38.517545
- Title: LLM-POET: Evolving Complex Environments using Large Language Models
- Title(参考訳): LLM-POET:大規模言語モデルを用いた複雑な環境の進化
- Authors: Fuma Aki, Riku Ikeda, Takumi Saito, Ciaran Regan, Mizuki Oka,
- Abstract要約: LLM-POETは,Large Language Model (LLM) を用いて環境の生成と変更を行うPOETアルゴリズムの修正である。
その結果, LLMは多様な環境を生産できるだけでなく, 拡張ポエットで環境生成に使用されるCPPNと比較して, 共進化の性能向上率は34%増加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating systems capable of generating virtually infinite variations of complex and novel behaviour without predetermined goals or limits is a major challenge in the field of AI. This challenge has been addressed through the development of several open-ended algorithms that can continuously generate new and diverse behaviours, such as the POET and Enhanced-POET algorithms for co-evolving environments and agent behaviour. One of the challenges with existing methods however, is that they struggle to continuously generate complex environments. In this work, we propose LLM-POET, a modification of the POET algorithm where the environment is both created and mutated using a Large Language Model (LLM). By fine-tuning a LLM with text representations of Evolution Gym environments and captions that describe the environment, we were able to generate complex and diverse environments using natural language. We found that not only could the LLM produce a diverse range of environments, but compared to the CPPNs used in Enhanced-POET for environment generation, the LLM allowed for a 34% increase in the performance gain of co-evolution. This increased performance suggests that the agents were able to learn a more diverse set of skills by training on more complex environments.
- Abstract(参考訳): 所定の目標や制限なしに、複雑で斬新な振る舞いのほぼ無限のバリエーションを生成できるシステムを作成することは、AI分野における大きな課題である。
この課題は、環境の共同進化とエージェントの振る舞いのためのPOETやEnhanced-POETアルゴリズムなど、新しい多様な振る舞いを継続的に生成できるいくつかのオープンエンドアルゴリズムの開発を通じて解決されている。
しかし、既存の手法の課題の1つは、複雑な環境を継続的に生成するのに苦労していることである。
本研究では,Large Language Model (LLM) を用いて環境の生成と変更を行うPOETアルゴリズムを改良した LLM-POET を提案する。
進化体環境のテキスト表現と環境を記述したキャプションでLLMを微調整することで,自然言語を用いて複雑で多様な環境を生成できた。
その結果, LLMは多様な環境を生産できるだけでなく, 拡張ポエットで環境生成に使用されるCPPNと比較して, 共進化の性能向上率は34%増加した。
このパフォーマンス向上は、エージェントがより複雑な環境でトレーニングすることで、より多様なスキルセットを学ぶことができたことを示唆している。
関連論文リスト
- AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [89.68433168477227]
LLM(Large Language Model)ベースのエージェントは注目され、ますます人気が高まっている。
本稿では,LLMの学習指導による計画能力の向上について検討する。
この制限に対処するために,多様な環境の自動合成と段階的な計画課題について検討する。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Exploring the Improvement of Evolutionary Computation via Large Language Models [3.4641800438055297]
進化計算(EC)は様々な領域に適用されている。
問題の複雑さが増大するにつれて、ECの限界はより明確になっている。
大きな言語モデルの膨大な知識と適応能力を活用することで、潜在的な改善の先見的な概要を提供する。
論文 参考訳(メタデータ) (2024-05-05T10:13:55Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - When large language models meet evolutionary algorithms [48.213640761641926]
事前訓練された大規模言語モデル(LLM)は、創造的な自然言語を生成する強力な能力を持つ。
進化的アルゴリズム(EA)は、複雑な現実世界の問題に対する多様な解決策を発見できる。
テキスト生成と進化の共通する集合性と方向性に動機づけられた本論文では,LLMとEAの並列性について述べる。
論文 参考訳(メタデータ) (2024-01-19T05:58:30Z) - Connecting Large Language Models with Evolutionary Algorithms Yields
Powerful Prompt Optimizers [70.18534453485849]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。
進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。
人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文 参考訳(メタデータ) (2023-09-15T16:50:09Z) - Cooperative coevolutionary Modified Differential Evolution with
Distance-based Selection for Large-Scale Optimization Problems in noisy
environments through an automatic Random Grouping [3.274290296343038]
本稿では,雑音環境における大規模最適化問題を解決するために,自動ランダムグループ化(aRG)を提案する。
また、ノイズの多い環境での能力を高めるために、MDE-DS(Modified Evolution with Distance-based Selection)を導入する。
提案手法は,ノイズの多い環境下でLSOPを解くための幅広い可能性があり,高次元問題への拡張が容易である。
論文 参考訳(メタデータ) (2022-09-02T01:37:17Z) - Deep Surrogate Assisted Generation of Environments [7.217405582720078]
品質多様性(QD)最適化は環境生成アルゴリズムの有効成分であることが証明されている。
本稿では,サンプル効率のよいQD環境生成アルゴリズムであるDeep Surrogate Assisted Generation of Environments (DSAGE)を提案する。
2つのベンチマークドメインの結果、DSAGEは既存のQD環境生成アルゴリズムを大幅に上回っている。
論文 参考訳(メタデータ) (2022-06-09T00:14:03Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Lifelong Incremental Reinforcement Learning with Online Bayesian
Inference [11.076005074172516]
長期にわたる強化学習エージェントは、環境の変化に応じて、その振る舞いを漸進的に適応させることである。
動的環境への効率的な生涯適応のための新しいインクリメンタルアルゴリズムであるLifeLong Reinforcement Learning (LLIRL)を提案する。
論文 参考訳(メタデータ) (2020-07-28T13:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。