Fugu-MT 論文翻訳(概要): Factorio Learning Environment

論文の概要: Factorio Learning Environment

arxiv url: http://arxiv.org/abs/2503.09617v1
Date: Thu, 06 Mar 2025 20:13:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.317974
Title: Factorio Learning Environment
Title（参考訳）: ファクター学習環境
Authors: Jack Hopkins, Mart Bakler, Akbir Khan,
Abstract要約: Factorio Learning Environment (FLE)は、長期計画、プログラム合成、リソース最適化のエージェントをテストする。 FLEは、基本的な自動化から、数百万のリソースユニットを毎秒処理する複雑なファクトリに至るまで、指数関数的にスケールする課題を提供します。モデルが依然として強い空間的推論を欠いていることを両設定で示しています。
参考スコア（独自算出の注目度）: 0.5120567378386615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are rapidly saturating existing benchmarks, necessitating new open-ended evaluations. We introduce the Factorio Learning Environment (FLE), based on the game of Factorio, that tests agents in long-term planning, program synthesis, and resource optimization. FLE provides exponentially scaling challenges -- from basic automation to complex factories processing millions of resource units per second. We provide two settings: (1) lab-play consisting of eight structured tasks with fixed resources, and (2) open-play with the unbounded task of building the largest factory on an procedurally generated map. We demonstrate across both settings that models still lack strong spatial reasoning. In lab-play, we find that LLMs exhibit promising short-horizon skills, yet are unable to operate effectively in constrained environments, reflecting limitations in error analysis. In open-play, while LLMs discover automation strategies that improve growth (e.g electric-powered drilling), they fail to achieve complex automation (e.g electronic-circuit manufacturing).
Abstract（参考訳）: 大規模言語モデル(LLM)は、既存のベンチマークを急速に飽和させ、新しいオープンエンド評価を必要としている。 FLE(Facterio Learning Environment)は、Facterioのゲームに基づいて、長期計画、プログラム合成、リソース最適化のエージェントをテストする。 FLEは、基本的な自動化から、数百万のリソースユニットを毎秒処理する複雑なファクトリに至るまで、指数関数的にスケールする課題を提供します。本研究では,(1)固定資源を持つ8つの構造されたタスクからなるラボプレイと,(2)手続き的に生成された地図上に最大の工場を構築するための無制限タスクとのオープンプレイの2つの設定を提供する。モデルが依然として強い空間的推論を欠いていることを両設定で示しています。実験室実験では,LLMは有望な短期水平スキルを示すが,制約のある環境では効果的に動作できず,誤り解析の限界を反映していることがわかった。オープンプレイでは、LLMは成長を改善する自動化戦略(例えば電気駆動ドリル)を発見するが、複雑な自動化(例えば電子回路製造)を達成できない。

関連論文リスト

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文参考訳（メタデータ） (2025-04-23T14:41:11Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文参考訳（メタデータ） (2024-11-08T06:04:22Z)
Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility [2.3999111269325266]
本稿では,大規模言語モデル(LLM)エージェントを自動生産システムに統合するための新しいアプローチを提案する。自動化ピラミッドに基づいた階層的なフレームワーク内での運用運用の組織化。これにより、プロダクションプロセスのオーケストレーションのためのスケーラブルでフレキシブルな基盤が実現できます。
論文参考訳（メタデータ） (2024-07-11T14:34:43Z)
Domain-specific ReAct for physics-integrated iterative modeling: A case study of LLM agents for gas path analysis of gas turbines [6.296946118570559]
本研究では,大言語モデル(LLM)のエネルギー・電力工学領域における呼び出し可能なツールによる適用について検討する。 1000億近いパラメータを持つLLMは、細調整と高度なプロンプト設計でプロのシナリオ要件を満たすことができた。
論文参考訳（メタデータ） (2024-06-01T13:35:18Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。 ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文参考訳（メタデータ） (2023-03-16T20:09:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。