論文の概要: PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
- arxiv url: http://arxiv.org/abs/2510.06475v1
- Date: Tue, 07 Oct 2025 21:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.207316
- Title: PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
- Title(参考訳): PuzzlePlex: パズルによる推論と計画に関するベンチマークの基礎モデル
- Authors: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha,
- Abstract要約: 本研究では,基礎モデルの推論と計画能力と,複雑な動的環境におけるスケーラビリティについて検討する。
PuzzlePlexは、様々なパズルによってこれらの能力を評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 53.47227295854126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the reasoning and planning capabilities of foundation models and their scalability in complex, dynamic environments. We introduce PuzzlePlex, a benchmark designed to assess these capabilities through a diverse set of puzzles. PuzzlePlex consists of 15 types of puzzles, including deterministic and stochastic games of varying difficulty, as well as single-player and two-player scenarios. The PuzzlePlex framework provides a comprehensive environment for each game, and supports extensibility to generate more challenging instances as foundation models evolve. Additionally, we implement customized game-playing strategies for comparison. Building on this benchmark, we develop fine-grained metrics to measure performance and conduct an in-depth analysis of frontier foundation models across two settings: instruction-based and code-based. Furthermore, we systematically investigate their scaling limits. Our findings show that reasoning models outperform others in instruction-based settings, while code-based execution presents greater challenges but offers a scalable and efficient alternative. PuzzlePlex enables targeted evaluation and guides future improvements in reasoning, planning, and generalization for foundation models.
- Abstract(参考訳): 本研究では,基礎モデルの推論と計画能力と,複雑な動的環境におけるスケーラビリティについて検討する。
PuzzlePlexは、様々なパズルによってこれらの能力を評価するために設計されたベンチマークである。
PuzzlePlexは15種類のパズルで構成されており、決定論的ゲームや確率論的ゲーム、シングルプレイヤーと2プレイヤーのシナリオがある。
PuzzlePlexフレームワークは、各ゲームに包括的な環境を提供し、ファンデーションモデルが進化するにつれて、より困難なインスタンスを生成する拡張性をサポートする。
さらに、比較のためにカスタマイズされたゲームプレイ戦略を実装した。
このベンチマークに基づいて、我々はパフォーマンスを計測し、命令ベースとコードベースという2つの設定でフロンティア基礎モデルの詳細な分析を行うためのきめ細かいメトリクスを開発した。
さらに,スケーリングの限界についても系統的に検討する。
その結果、推論モデルは命令ベースの設定で他よりも優れており、コードベースの実行は大きな課題を呈するが、スケーラブルで効率的な代替手段を提供することがわかった。
PuzzlePlexは、基礎モデルの推論、計画、一般化における将来の改善を目標とする評価とガイドを可能にする。
関連論文リスト
- GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [8.640618631999173]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文 参考訳(メタデータ) (2025-08-11T22:17:07Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。
OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。
OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文 参考訳(メタデータ) (2025-04-15T05:29:31Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
そこで我々は,大言語モデル(LLM)とLVLM(Large Vision-Language Model)の推論能力を評価するためのベンチマークであるCrossWordBenchを紹介する。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界を強調し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - Mathematical Definition and Systematization of Puzzle Rules [0.0]
本稿では,鉛筆パズルルールの定義と体系化のための数学的枠組みを提案する。
このフレームワークはグリッド要素、それらの位置関係、および反復合成操作を形式化する。
この枠組みを適用し,Slitherlink や Sudoku など,よく知られた Nikoli パズルのルールを定式化した。
論文 参考訳(メタデータ) (2024-12-18T02:00:53Z) - PUZZLES: A Benchmark for Neural Algorithmic Reasoning [21.57943896942296]
我々は,Simon Tatham の Portable Puzzle Collection に基づくベンチマーク PUZLES を紹介する。
PUZZLESには、調整可能なサイズと様々な複雑さの40の多様な論理パズルが含まれている。
パズルはRLエージェントの強度と一般化能力に関する詳細な情報を提供する。
論文 参考訳(メタデータ) (2024-06-29T11:02:05Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。
エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。
エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文 参考訳(メタデータ) (2021-04-21T09:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。