論文の概要: LLM-POET: Evolving Complex Environments using Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04663v1
- Date: Fri, 7 Jun 2024 06:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-10 15:19:38.517545
- Title: LLM-POET: Evolving Complex Environments using Large Language Models
- Title(参考訳): LLM-POET:大規模言語モデルを用いた複雑な環境の進化
- Authors: Fuma Aki, Riku Ikeda, Takumi Saito, Ciaran Regan, Mizuki Oka,
- Abstract要約: LLM-POETは,Large Language Model (LLM) を用いて環境の生成と変更を行うPOETアルゴリズムの修正である。
その結果, LLMは多様な環境を生産できるだけでなく, 拡張ポエットで環境生成に使用されるCPPNと比較して, 共進化の性能向上率は34%増加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating systems capable of generating virtually infinite variations of complex and novel behaviour without predetermined goals or limits is a major challenge in the field of AI. This challenge has been addressed through the development of several open-ended algorithms that can continuously generate new and diverse behaviours, such as the POET and Enhanced-POET algorithms for co-evolving environments and agent behaviour. One of the challenges with existing methods however, is that they struggle to continuously generate complex environments. In this work, we propose LLM-POET, a modification of the POET algorithm where the environment is both created and mutated using a Large Language Model (LLM). By fine-tuning a LLM with text representations of Evolution Gym environments and captions that describe the environment, we were able to generate complex and diverse environments using natural language. We found that not only could the LLM produce a diverse range of environments, but compared to the CPPNs used in Enhanced-POET for environment generation, the LLM allowed for a 34% increase in the performance gain of co-evolution. This increased performance suggests that the agents were able to learn a more diverse set of skills by training on more complex environments.
- Abstract(参考訳): 所定の目標や制限なしに、複雑で斬新な振る舞いのほぼ無限のバリエーションを生成できるシステムを作成することは、AI分野における大きな課題である。
この課題は、環境の共同進化とエージェントの振る舞いのためのPOETやEnhanced-POETアルゴリズムなど、新しい多様な振る舞いを継続的に生成できるいくつかのオープンエンドアルゴリズムの開発を通じて解決されている。
しかし、既存の手法の課題の1つは、複雑な環境を継続的に生成するのに苦労していることである。
本研究では,Large Language Model (LLM) を用いて環境の生成と変更を行うPOETアルゴリズムを改良した LLM-POET を提案する。
進化体環境のテキスト表現と環境を記述したキャプションでLLMを微調整することで,自然言語を用いて複雑で多様な環境を生成できた。
その結果, LLMは多様な環境を生産できるだけでなく, 拡張ポエットで環境生成に使用されるCPPNと比較して, 共進化の性能向上率は34%増加した。
このパフォーマンス向上は、エージェントがより複雑な環境でトレーニングすることで、より多様なスキルセットを学ぶことができたことを示唆している。
関連論文リスト
- AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization [61.535567824938205]
本稿では,LLMによる進化を階層的適応最適化問題として再構成するフレームワークであるAdaEvolveを紹介する。
AdaEvolveは185の異なるオープンエンド最適化問題において、オープンエンドベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-23T18:45:31Z) - Improving Regret Approximation for Unsupervised Dynamic Environment Generation [19.50608711043436]
無監督環境設計(UED)は、強化学習(RL)エージェントのための訓練カリキュラムを自動生成することを目指している。
現在の手法は、困難な信用割当問題に悩まされており、難易度を特定できない後悔の近似に依存している。
より高密度なジェネレータ報酬信号を実現するために,UEDのための動的環境生成を提案する。
論文 参考訳(メタデータ) (2026-01-21T12:58:40Z) - Environment-Aware Code Generation: How far are We? [52.69113158357018]
大規模言語モデル(LLM)がユーザの特定の環境に適した実行可能コードを確実に生成できるかどうかは不明である。
本稿では,環境対応コード生成(EACG)の最初の体系的研究について述べる。
その結果,現在のLLMは環境固有のコード生成に苦しむ一方で,環境の適合性や実行性も向上していることがわかった。
論文 参考訳(メタデータ) (2026-01-18T04:58:15Z) - VirtualEnv: A Platform for Embodied AI Research [26.527818430035534]
Unreal Engine 5上に構築された次世代シミュレーションプラットフォームであるVirtualEnvを紹介します。
具体的でインタラクティブなシナリオにおいて、大きな言語モデル(LLM)のきめ細かいベンチマークを可能にする。
私たちはUnreal Engine上に構築されたユーザフレンドリなAPIを提供しており、研究者はLLM駆動エージェントをデプロイし、制御することができます。
論文 参考訳(メタデータ) (2026-01-12T14:04:38Z) - Structuring Collective Action with LLM-Guided Evolution: From Ill-Structured Problems to Executable Heuristics [0.0]
個別インセンティブと集合目標の整合性を必要とする集団行動問題は、Ill-Structured Problems(ISP)の古典的な例である。
本稿では,この大域的複雑性を,各エージェントに対して抽出可能なWSP(Well-Structured Problem)に変換する計算フレームワークECHO-MIMICを提案する。
ECHO-MIMICは、アルゴリズム発見と調整されたコミュニケーションを結合することにより、集団行動の認知的負担を単純なエージェントレベルの命令セットに変換する。
論文 参考訳(メタデータ) (2025-09-24T08:26:56Z) - cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending [3.939989712024268]
コンテキストMARL(cMARL)は、コンテキスト変数で環境をパラメータ化し、コンテキストに依存しないポリシーをトレーニングすることでこの問題に対処する。
既存のcMARLメソッドは、カリキュラム学習を使用して、文脈に依存しないポリシーを訓練し評価する。
多様性に基づくコンテキストブレンディング(cMALC-D)を用いたマルチエージェントLLM指導カリキュラム学習を提案する。
論文 参考訳(メタデータ) (2025-08-28T14:16:17Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - A Hybrid GA LLM Framework for Structured Task Optimization [0.0]
GA LLMは、遺伝的アルゴリズムと大規模言語モデルを組み合わせて、厳密な制約の下で構造化された生成タスクを処理するハイブリッドフレームワークである。
言語モデルはドメイン知識と創造的バリエーションを提供し、遺伝的アルゴリズムは構造的整合性とグローバルな最適化を保証する。
論文 参考訳(メタデータ) (2025-06-09T07:00:04Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Evolutionary thoughts: integration of large language models and evolutionary algorithms [2.3633885460047765]
大規模言語モデル(LLM)は、自然言語とコードの両方を理解し、生成する際、注目すべき機能を明らかにしている。
本稿では,拡張解空間のより集中的な探索を可能にする進化的探索戦略を提案する。
論文 参考訳(メタデータ) (2025-05-09T03:32:18Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI [7.040779338576156]
大規模言語モデル(LLM)は、ロボットのためのテキスト計画や制御コードを生成することができる。
これらの手法は、異なる環境にまたがる柔軟性と適用性の観点からも、依然として課題に直面している。
本稿では,ロボット操作エージェントの適応性と堅牢性を高めるために,EnvBridgeを提案する。
論文 参考訳(メタデータ) (2024-10-22T11:52:22Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [89.68433168477227]
LLM(Large Language Model)ベースのエージェントは注目され、ますます人気が高まっている。
本稿では,LLMの学習指導による計画能力の向上について検討する。
この制限に対処するために,多様な環境の自動合成と段階的な計画課題について検討する。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Exploring the Improvement of Evolutionary Computation via Large Language Models [3.4641800438055297]
進化計算(EC)は様々な領域に適用されている。
問題の複雑さが増大するにつれて、ECの限界はより明確になっている。
大きな言語モデルの膨大な知識と適応能力を活用することで、潜在的な改善の先見的な概要を提供する。
論文 参考訳(メタデータ) (2024-05-05T10:13:55Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - When large language models meet evolutionary algorithms [48.213640761641926]
事前訓練された大規模言語モデル(LLM)は、創造的な自然言語を生成する強力な能力を持つ。
進化的アルゴリズム(EA)は、複雑な現実世界の問題に対する多様な解決策を発見できる。
テキスト生成と進化の共通する集合性と方向性に動機づけられた本論文では,LLMとEAの並列性について述べる。
論文 参考訳(メタデータ) (2024-01-19T05:58:30Z) - Connecting Large Language Models with Evolutionary Algorithms Yields
Powerful Prompt Optimizers [70.18534453485849]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。
進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。
人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文 参考訳(メタデータ) (2023-09-15T16:50:09Z) - Cooperative coevolutionary Modified Differential Evolution with
Distance-based Selection for Large-Scale Optimization Problems in noisy
environments through an automatic Random Grouping [3.274290296343038]
本稿では,雑音環境における大規模最適化問題を解決するために,自動ランダムグループ化(aRG)を提案する。
また、ノイズの多い環境での能力を高めるために、MDE-DS(Modified Evolution with Distance-based Selection)を導入する。
提案手法は,ノイズの多い環境下でLSOPを解くための幅広い可能性があり,高次元問題への拡張が容易である。
論文 参考訳(メタデータ) (2022-09-02T01:37:17Z) - Deep Surrogate Assisted Generation of Environments [7.217405582720078]
品質多様性(QD)最適化は環境生成アルゴリズムの有効成分であることが証明されている。
本稿では,サンプル効率のよいQD環境生成アルゴリズムであるDeep Surrogate Assisted Generation of Environments (DSAGE)を提案する。
2つのベンチマークドメインの結果、DSAGEは既存のQD環境生成アルゴリズムを大幅に上回っている。
論文 参考訳(メタデータ) (2022-06-09T00:14:03Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Lifelong Incremental Reinforcement Learning with Online Bayesian
Inference [11.076005074172516]
長期にわたる強化学習エージェントは、環境の変化に応じて、その振る舞いを漸進的に適応させることである。
動的環境への効率的な生涯適応のための新しいインクリメンタルアルゴリズムであるLifeLong Reinforcement Learning (LLIRL)を提案する。
論文 参考訳(メタデータ) (2020-07-28T13:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。