論文の概要: Factorio Learning Environment
- arxiv url: http://arxiv.org/abs/2503.09617v1
- Date: Thu, 06 Mar 2025 20:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 07:11:40.198618
- Title: Factorio Learning Environment
- Title(参考訳): ファクター学習環境
- Authors: Jack Hopkins, Mart Bakler, Akbir Khan,
- Abstract要約: Factorio Learning Environment (FLE)は、長期計画、プログラム合成、リソース最適化のエージェントをテストする。
FLEは、基本的な自動化から、数百万のリソースユニットを毎秒処理する複雑なファクトリに至るまで、指数関数的にスケールする課題を提供します。
モデルが依然として強い空間的推論を欠いていることを両設定で示しています。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License:
- Abstract: Large Language Models (LLMs) are rapidly saturating existing benchmarks, necessitating new open-ended evaluations. We introduce the Factorio Learning Environment (FLE), based on the game of Factorio, that tests agents in long-term planning, program synthesis, and resource optimization. FLE provides exponentially scaling challenges -- from basic automation to complex factories processing millions of resource units per second. We provide two settings: (1) lab-play consisting of eight structured tasks with fixed resources, and (2) open-play with the unbounded task of building the largest factory on an procedurally generated map. We demonstrate across both settings that models still lack strong spatial reasoning. In lab-play, we find that LLMs exhibit promising short-horizon skills, yet are unable to operate effectively in constrained environments, reflecting limitations in error analysis. In open-play, while LLMs discover automation strategies that improve growth (e.g electric-powered drilling), they fail to achieve complex automation (e.g electronic-circuit manufacturing).
- Abstract(参考訳): 大規模言語モデル(LLM)は、既存のベンチマークを急速に飽和させ、新しいオープンエンド評価を必要としている。
FLE(Facterio Learning Environment)は、Facterioのゲームに基づいて、長期計画、プログラム合成、リソース最適化のエージェントをテストする。
FLEは、基本的な自動化から、数百万のリソースユニットを毎秒処理する複雑なファクトリに至るまで、指数関数的にスケールする課題を提供します。
本研究では,(1)固定資源を持つ8つの構造されたタスクからなるラボプレイと,(2)手続き的に生成された地図上に最大の工場を構築するための無制限タスクとのオープンプレイの2つの設定を提供する。
モデルが依然として強い空間的推論を欠いていることを両設定で示しています。
実験室実験では,LLMは有望な短期水平スキルを示すが,制約のある環境では効果的に動作できず,誤り解析の限界を反映していることがわかった。
オープンプレイでは、LLMは成長を改善する自動化戦略(例えば電気駆動ドリル)を発見するが、複雑な自動化(例えば電子回路製造)を達成できない。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。
この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文 参考訳(メタデータ) (2024-11-08T06:04:22Z) - Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility [2.3999111269325266]
本稿では,大規模言語モデル(LLM)エージェントを自動生産システムに統合するための新しいアプローチを提案する。
自動化ピラミッドに基づいた階層的なフレームワーク内での運用運用の組織化。
これにより、プロダクションプロセスのオーケストレーションのためのスケーラブルでフレキシブルな基盤が実現できます。
論文 参考訳(メタデータ) (2024-07-11T14:34:43Z) - Domain-specific ReAct for physics-integrated iterative modeling: A case study of LLM agents for gas path analysis of gas turbines [6.296946118570559]
本研究では,大言語モデル(LLM)のエネルギー・電力工学領域における呼び出し可能なツールによる適用について検討する。
1000億近いパラメータを持つLLMは、細調整と高度なプロンプト設計でプロのシナリオ要件を満たすことができた。
論文 参考訳(メタデータ) (2024-06-01T13:35:18Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。