論文の概要: Boardwalk: Towards a Framework for Creating Board Games with LLMs
- arxiv url: http://arxiv.org/abs/2508.16447v1
- Date: Fri, 22 Aug 2025 15:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.424017
- Title: Boardwalk: Towards a Framework for Creating Board Games with LLMs
- Title(参考訳): ボードウォーク: LLMでボードゲームを作るためのフレームワークを目指す
- Authors: Álvaro Guglielmin Becker, Gabriel Bauer de Oliveira, Lana Bertoldo Rossato, Anderson Rocha Tavares,
- Abstract要約: 我々は,自然言語で記述されたルールから,大規模言語モデルがボードゲームのデジタル版を実装できるかどうかを検討することを目的とする。
我々は,ボードウォーク内およびボードウォーク内において,人気ゲーム12選をコーディングするために,最先端の3つのLSMを課題とする。
我々のアプローチは、最高のパフォーマンスモデルであるClaude 3.7 Sonnetで、エラーなく55.6%のゲームが得られることを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implementing board games in code can be a time-consuming task. However, Large Language Models (LLMs) have been proven effective at generating code for domain-specific tasks with simple contextual information. We aim to investigate whether LLMs can implement digital versions of board games from rules described in natural language. This would be a step towards an LLM-assisted framework for quick board game code generation. We expect to determine the main challenges for LLMs to implement the board games, and how different approaches and models compare to one another. We task three state-of-the-art LLMs (Claude, DeepSeek and ChatGPT) with coding a selection of 12 popular and obscure games in free-form and within Boardwalk, our proposed General Game Playing API. We anonymize the games and components to avoid evoking pre-trained LLM knowledge. The implementations are tested for playability and rule compliance. We evaluate success rate and common errors across LLMs and game popularity. Our approach proves viable, with the best performing model, Claude 3.7 Sonnet, yielding 55.6\% of games without any errors. While compliance with the API increases error frequency, the severity of errors is more significantly dependent on the LLM. We outline future steps for creating a framework to integrate this process, making the elaboration of board games more accessible.
- Abstract(参考訳): ボードゲームをコードで実装するのは時間を要する作業です。
しかし、Large Language Models (LLM) は、シンプルな文脈情報を持つドメイン固有のタスクのコードを生成するのに有効であることが証明されている。
我々は,LLMが自然言語で記述されたルールから,ボードゲームのデジタル版を実装できるかどうかを検討することを目的とする。
これは、高速ボードゲームコード生成のためのLCM支援フレームワークへのステップとなるだろう。
LLMがボードゲームを実装する上での主な課題と、異なるアプローチとモデルが相互にどのように比較されるかを決定することを期待しています。
提案するGeneral Game Playing APIであるClaude,DeepSeek,ChatGPTの3つの最先端 LLM を,ボードウォークおよびボードウォークの12種類の人気ゲームの選択をコーディングする。
ゲームやコンポーネントを匿名化して,事前学習したLLM知識を回避します。
実装はプレイ容易性とルールコンプライアンスのためにテストされる。
LLMにおける成功率と共通誤差とゲーム人気を評価する。
我々のアプローチは、最高のパフォーマンスモデルであるClaude 3.7 Sonnetで、エラーなく55.6\%のゲームが得られることを証明している。
APIへの準拠はエラー頻度を増大させるが、エラーの深刻度はLLMに大きく依存する。
このプロセスを統合するためのフレームワークを作成するための今後のステップについて概説する。
関連論文リスト
- Baba is LLM: Reasoning in a Game with Dynamic Rules [0.0]
大規模言語モデル(LLM)は、言語タスクではうまく機能することが知られているが、推論タスクでは苦労している。
本稿では,LLMが2DパズルゲームBaba Is Youをプレイする能力について考察する。
論文 参考訳(メタデータ) (2025-06-23T20:16:28Z) - lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。
我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文 参考訳(メタデータ) (2025-05-21T06:02:55Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。