論文の概要: Baba is LLM: Reasoning in a Game with Dynamic Rules
- arxiv url: http://arxiv.org/abs/2506.19095v1
- Date: Mon, 23 Jun 2025 20:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.374054
- Title: Baba is LLM: Reasoning in a Game with Dynamic Rules
- Title(参考訳): Baba is LLM:動的ルールを持つゲームにおける推論
- Authors: Fien van Wetten, Aske Plaat, Max van Duijn,
- Abstract要約: 大規模言語モデル(LLM)は、言語タスクではうまく機能することが知られているが、推論タスクでは苦労している。
本稿では,LLMが2DパズルゲームBaba Is Youをプレイする能力について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to perform well on language tasks, but struggle with reasoning tasks. This paper explores the ability of LLMs to play the 2D puzzle game Baba is You, in which players manipulate rules by rearranging text blocks that define object properties. Given that this rule-manipulation relies on language abilities and reasoning, it is a compelling challenge for LLMs. Six LLMs are evaluated using different prompt types, including (1) simple, (2) rule-extended and (3) action-extended prompts. In addition, two models (Mistral, OLMo) are finetuned using textual and structural data from the game. Results show that while larger models (particularly GPT-4o) perform better in reasoning and puzzle solving, smaller unadapted models struggle to recognize game mechanics or apply rule changes. Finetuning improves the ability to analyze the game levels, but does not significantly improve solution formulation. We conclude that even for state-of-the-art and finetuned LLMs, reasoning about dynamic rule changes is difficult (specifically, understanding the use-mention distinction). The results provide insights into the applicability of LLMs to complex problem-solving tasks and highlight the suitability of games with dynamically changing rules for testing reasoning and reflection by LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語タスクではうまく機能することが知られているが、推論タスクでは苦労している。
本稿では,LLMが2DパズルゲームBaba is Youをプレイする能力について考察する。
このルール操作は言語能力と推論に依存しているため、LLMにとって魅力的な課題である。
6つのLSMを,(1)単純,(2)規則拡張,(3)行動拡張のプロンプトなど,異なるタイプのプロンプトを用いて評価した。
さらに、2つのモデル(Mistral, OLMo)をゲームからテキストデータと構造データを用いて微調整する。
その結果、より大きなモデル(特にGPT-4o)は推論やパズルの解法において優れているが、より小さな未適応モデルはゲーム力学を認識したりルールの変更を適用したりするのに苦労していることがわかった。
ファインタニングはゲームレベルを解析する能力を向上させるが、解の定式化を著しく改善するわけではない。
我々は、最先端かつ微調整されたLLMであっても、動的規則変化の推論は困難である(具体的には、使用の区別を理解する)と結論付けている。
その結果, LLM の複雑な問題解決タスクへの適用性に関する知見が得られ, LLM による推論とリフレクションのテストを行うための動的に変化するルールを持つゲームの適合性を強調した。
関連論文リスト
- TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning [26.680686158061192]
推論は大規模言語モデル(LLM)の基本機能である
本稿では,テキストベースのゲームで LLM を評価するためのベンチマークである TextGames を紹介する。
以上の結果から,LSMは最も容易かつ中程度の問題に対処する能力を示すが,より困難な課題に直面することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-25T18:26:48Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。