論文の概要: From Code to Play: Benchmarking Program Search for Games Using Large Language Models
- arxiv url: http://arxiv.org/abs/2412.04057v1
- Date: Thu, 05 Dec 2024 10:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:09.676082
- Title: From Code to Play: Benchmarking Program Search for Games Using Large Language Models
- Title(参考訳): コードからプレイへ:大規模言語モデルを用いたゲームのためのベンチマークプログラム検索
- Authors: Manuel Eberhardinger, James Goodman, Alexander Dockhorn, Diego Perez-Liebana, Raluca D. Gaina, Duygu Çakmak, Setareh Maghsudi, Simon Lucas,
- Abstract要約: 大規模言語モデル(LLM)は、プログラムコードを生成するのに素晴らしい能力を示している。
本研究は,多種多様なゲームアプリケーションにおいて,使用可能なコードを直接合成するLLMの可能性を探るものである。
我々は、初期プログラムの突然変異と種子がLSMによって制御される進化的ヒルクライミングアルゴリズムを用いる。
- 参考スコア(独自算出の注目度): 37.62275019162377
- License:
- Abstract: Large language models (LLMs) have shown impressive capabilities in generating program code, opening exciting opportunities for applying program synthesis to games. In this work, we explore the potential of LLMs to directly synthesize usable code for a wide range of gaming applications, focusing on two programming languages, Python and Java. We use an evolutionary hill-climbing algorithm, where the mutations and seeds of the initial programs are controlled by LLMs. For Python, the framework covers various game-related tasks, including five miniature versions of Atari games, ten levels of Baba is You, an environment inspired by Asteroids, and a maze generation task. For Java, the framework contains 12 games from the TAG tabletop games framework. Across 29 tasks, we evaluated 12 language models for Python and 8 for Java. Our findings suggest that the performance of LLMs depends more on the task than on model size. While larger models generate more executable programs, these do not always result in higher-quality solutions but are much more expensive. No model has a clear advantage, although on any specific task, one model may be better. Trying many models on a problem and using the best results across them is more reliable than using just one.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラムコードの生成において印象的な能力を示し、プログラム合成をゲームに適用するエキサイティングな機会を開いた。
本研究では,PythonとJavaの2つのプログラミング言語に焦点をあて,幅広いゲームアプリケーションで使用可能なコードを直接的に合成するLLMの可能性を探る。
我々は、初期プログラムの突然変異と種子がLSMによって制御される進化的ヒルクライミングアルゴリズムを用いる。
Pythonでは、Atariゲーム5つのミニバージョン、Baba is Youの10レベル、Asteroidsにインスパイアされた環境、迷路生成タスクなど、さまざまなゲーム関連のタスクをカバーしている。
Javaでは、TAGテーブルトップゲームフレームワークから12のゲームが含まれている。
29のタスクで、Pythonの12の言語モデルとJavaの8の言語モデルを評価しました。
この結果から,LLMの性能はモデルサイズよりもタスクに依存することが示唆された。
より大きなモデルはより実行可能なプログラムを生成するが、これらは必ずしも高品質なソリューションをもたらすわけではない。
どんな特定のタスクでも、1つのモデルの方が良いかもしれませんが、明確な優位性はありません。
問題に対して多くのモデルを試して、それら全体で最高の結果を使うことは、1つだけ使うよりも信頼性が高い。
関連論文リスト
- Python Agent in Ludii [0.0]
LudiiはJavaの汎用ゲームシステムであり、新しいエージェントを開発するためのAPIと新しいゲームを作成するためのゲーム記述言語を備えている。
我々はエージェントプログラミングにPythonを提供する。これにより、一般的なゲームプレイエージェントを実装するためにPythonモジュールを使用することができる。
Ludiiエージェントを作成するためにPythonを有効にする手段として、インターフェースはjpyとPy4Jという異なるJavaライブラリを使って実装されている。
論文 参考訳(メタデータ) (2024-12-18T22:12:52Z) - GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps [5.874552372073687]
大規模言語モデル(LLM)は、最近、自然言語の生成と理解において大きな成功を収めた。
多様な2次元グリッドベースのゲームマップからなるベンチマークであるGameTraversalBenchmark (GTB)を提案する。
GPT-4-TurboはGTB_Score(GTBS)で44.97%の最高スコアを記録した。
論文 参考訳(メタデータ) (2024-10-10T09:54:28Z) - Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。
LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。
本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation [23.31928097405939]
言語モデルに融合した足場プログラムを用いて自己改善を行う。
言語モデルにより、様々な自己改善戦略が提案されている。
これは、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。