論文の概要: Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing
- arxiv url: http://arxiv.org/abs/2602.19160v1
- Date: Sun, 22 Feb 2026 12:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.510891
- Title: Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing
- Title(参考訳): 大言語モデルの推論能力 : 汎用ゲームから学んだこと
- Authors: Maciej Świechowski, Adam Żychowski, Jacek Mańdziuk,
- Abstract要約: 前方シミュレーションタスクのスイート上で,4つの大規模言語モデル (LLM) を評価する。
我々は,40個の構造的特徴に基づくゲームの特徴付けを行い,それらの特徴とLLM性能の相関関係を解析した。
全体として、同時代のモデルの形式的推論能力の進歩が報告されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the reasoning capabilities of Large Language Models (LLMs) from a novel perspective, focusing on their ability to operate within formally specified, rule-governed environments. We evaluate four LLMs (Gemini 2.5 Pro and Flash variants, Llama 3.3 70B and GPT-OSS 120B) on a suite of forward-simulation tasks-including next / multistep state formulation, and legal action generation-across a diverse set of reasoning problems illustrated through General Game Playing (GGP) game instances. Beyond reporting instance-level performance, we characterize games based on 40 structural features and analyze correlations between these features and LLM performance. Furthermore, we investigate the effects of various game obfuscations to assess the role of linguistic semantics in game definitions and the impact of potential prior exposure of LLMs to specific games during training. The main results indicate that three of the evaluated models generally perform well across most experimental settings, with performance degradation observed as the evaluation horizon increases (i.e., with a higher number of game steps). Detailed case-based analysis of the LLM performance provides novel insights into common reasoning errors in the considered logic-based problem formulation, including hallucinated rules, redundant state facts, or syntactic errors. Overall, the paper reports clear progress in formal reasoning capabilities of contemporary models.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の推論能力を新たな視点から考察する。
汎用ゲームプレイング(GGP)ゲームインスタンスで示される多種多様な推論問題にまたがって4つのLCM(Gemini 2.5 Pro, Flash variants, Llama 3.3 70B, GPT-OSS 120B)を評価した。
インスタンスレベルのパフォーマンスの報告以外にも、40の構造的特徴に基づくゲームの特徴付けを行い、これらの特徴とLLM性能の相関関係を分析する。
さらに,ゲーム定義における言語意味論の役割を評価する上でのゲーム難読化の効果と,学習中の特定のゲームに対するLLMの事前曝露の影響についても検討した。
主な結果から,評価モデルのうち3つのモデルが,評価水平線が増加するにつれて性能劣化が観測される(ゲームステップの数が多い)。
LLM性能の詳細なケースベース分析は、幻覚規則、冗長な状態事実、構文的誤りを含む、考慮された論理ベースの問題定式化における共通の推論誤差に関する新しい洞察を提供する。
全体として、同時代のモデルの形式的推論能力の進歩が報告されている。
関連論文リスト
- GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文 参考訳(メタデータ) (2025-08-11T22:17:07Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。