Fugu-MT 論文翻訳(概要): Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork?

論文の概要: Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork?

arxiv url: http://arxiv.org/abs/2602.15867v1
Date: Tue, 27 Jan 2026 12:37:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.672454
Title: Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork?
Title（参考訳）: 1977年のテキストベースのアドベンチャーゲーム「Zork」では、どのように機能するのか?
Authors: Berry Gerrits,
Abstract要約: 現代大規模言語モデル(LLM)の問題解決能力と推論能力について,Zorkにおける性能評価を行った。最小限の命令と詳細な命令の両方で、主要なプロプライエタリモデルの性能をテストする。以上の結果から,テスト対象モデルの平均完成率は10%以下であり,最高性能モデル(Claude Opus 4.5)も350点中75点にしか達していないことが明らかとなった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this positioning paper, we evaluate the problem-solving and reasoning capabilities of contemporary Large Language Models (LLMs) through their performance in Zork, the seminal text-based adventure game first released in 1977. The game's dialogue-based structure provides a controlled environment for assessing how LLM-based chatbots interpret natural language descriptions and generate appropriate action sequences to succeed in the game. We test the performance of leading proprietary models - ChatGPT, Claude, and Gemini - under both minimal and detailed instructions, measuring game progress through achieved scores as the primary metric. Our results reveal that all tested models achieve less than 10% completion on average, with even the best-performing model (Claude Opus 4.5) reaching only approximately 75 out of 350 possible points. Notably, providing detailed game instructions offers no improvement, nor does enabling ''extended thinking''. Qualitative analysis of the models' reasoning processes reveals fundamental limitations: repeated unsuccessful actions suggesting an inability to reflect on one's own thinking, inconsistent persistence of strategies, and failure to learn from previous attempts despite access to conversation history. These findings suggest substantial limitations in current LLMs' metacognitive abilities and problem-solving capabilities within the domain of text-based games, raising questions about the nature and extent of their reasoning capabilities.
Abstract（参考訳）: 本稿では,1977年に発売された初版テキストベースのアドベンチャーゲームであるZorkにおいて,現代大言語モデル(LLM)の問題解決能力と推論能力を評価する。ゲームの対話に基づく構造は、LLMベースのチャットボットが自然言語の記述をどのように解釈し、ゲームで成功する適切なアクションシーケンスを生成するかを評価するための制御された環境を提供する。我々は,最上位のプロプライエタリモデルであるChatGPT,Claude,Geminiのパフォーマンスを,最小限かつ詳細な指示の下で検証し,達成されたスコアを主指標としてゲーム進行を計測する。以上の結果から,テスト対象モデルの平均完成率は10%以下であり,最高性能モデル(Claude Opus 4.5)も350点中75点にしか達していないことが明らかとなった。特に、詳細なゲーム指示を提供することで、改善が得られず、「拡張思考」もできない。モデルの推論過程の質的分析は基本的な限界を明らかにしている: 繰り返し失敗した行動は、自分自身の思考を反映できないこと、戦略の一貫性のない持続性、会話履歴へのアクセスにもかかわらず以前の試みから学べないことを示唆する。これらの結果は,現在のLLMのメタ認知能力とテキストベースのゲーム領域における問題解決能力にかなりの限界があることを示唆し,それらの推論能力の性質と範囲に関する疑問を提起した。

関連論文リスト

Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing [0.0]
前方シミュレーションタスクのスイート上で,4つの大規模言語モデル (LLM) を評価する。我々は,40個の構造的特徴に基づくゲームの特徴付けを行い,それらの特徴とLLM性能の相関関係を解析した。全体として、同時代のモデルの形式的推論能力の進歩が報告されている。
論文参考訳（メタデータ） (2026-02-22T12:43:00Z)
How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use [52.394999779049606]
大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。 LLMは従来のアルゴリズムと競合しない。ツール統合推論フレームワークであるToolPokerを提案する。
論文参考訳（メタデータ） (2026-01-31T05:45:25Z)
LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文参考訳（メタデータ） (2025-12-01T18:51:08Z)
Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文参考訳（メタデータ） (2025-10-13T13:33:30Z)
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。 GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文参考訳（メタデータ） (2025-09-30T15:23:39Z)
GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。 General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文参考訳（メタデータ） (2025-08-11T22:17:07Z)
GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)
GameArena: Evaluating LLM Reasoning through Live Computer Games [25.415321902887598]
我々は,人間との対話型ゲームプレイを通じて,大規模言語モデル(LLM)推論能力を評価するベンチマークであるGameArenaを紹介する。 GameArenaは3つのゲームからなり、参加者を楽しませたりエンゲージメントしたりしながら、特定の推論能力(演能的推論や帰納的推論など)をテストする。我々は2000以上のゲームセッションを収集し、5つの最先端LCMに対して様々な推論能力の詳細な評価を行う。
論文参考訳（メタデータ） (2024-12-09T11:22:59Z)
GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。 GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文参考訳（メタデータ） (2023-08-19T14:33:40Z)
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2020-10-22T12:40:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。